- 博客(399)
- 资源 (13)
- 收藏
- 关注
原创 【读点论文】TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document专用OCR大模型,优化token采样策略
通过同时参与多个面向文本的任务,TextMonkey增强了其对空间关系的感知和理解,从而提高了可解释性并支持点击屏幕截图。通过将我们的模型与各种 lmm 进行比较,我们的模型在多个基准上取得了优异的结果。值得一提的是,我们还发现直接提高输入分辨率并不总能带来改善,尤其是对于小得多的图像。这强调了创建一种有效的方法来缩放尺寸变化剧烈的文档中的分辨率的必要性。采用零初始化的移位窗口注意力来帮助建立关系,同时使用滑动窗口来增加输入分辨率。提高分辨率的同时也增加了令牌的数量。通过分析令牌的冗余性,我们提出的令牌
2025-07-09 09:09:59
148
原创 【读点论文】RAW-Adapter:Adapting Pre-trained Visual Model to Camera RAW Images优化ISP成像流程,两阶段适配深度学习任务的成像规则
ISP 本身的设计和design是为了满足人眼视觉更好的感知,传统的ISP算法每一个step往往都需要prior knowledge,比如白平衡前需要估计光源。每一家厂商的ISP也都有自己的特点,比如Sony和华为他们的自家ISP流程的CCM以及LUT参数肯定不同,同时每家的ISP基本都是黑盒,我们很难获取里面具体的step。*SP针对人眼设计的特性也导致了,这些ISP算法并不一定能很好的满足machine vision,尤其是在对于一些下游计算机视觉任务检测,分割的时候**,针对人眼设计的ISP并不一定能
2025-07-08 09:15:12
484
原创 【读点论文】OCRBench v2: An Improved Benchmark for Evaluating LMMs多模态模型在OCR各项任务对比,识别优于专用小模型,但是严重缺乏定位能力
- 包含 23 个具体任务,覆盖 8 大核心能力(文本识别、定位、关系提取、数学计算等),任务数量是前一版本 OCRBench 的 4 倍。覆盖 31 种场景(如科学论文、收据、手写试卷),包含 10,000 个人工验证的问答对和 1,500 张手动标注的私有测试图像。采用 6 类评估指标(如 TEDS、IoU、F1 分数),兼顾结构相似性和语义准确性。与传统 OCR 模型(如 CRNN、ABCNet)相比,LMMs(如 Qwen2.5-VL、GPT-4o)在通用文本识别任务上表现更优。例如:Qwen2.5
2025-07-04 09:24:23
1017
原创 【读点论文】Exposure-slot:Exposurecentric Representations Learning S-in-S Att 层次化槽注意力区域感知曝光校正,引入可学习Prompts
之前的方法如 Retinex 理论、多曝光校正模型(如 MSEC、LCDPNet)以及基于物理特性的特征分离(如频率、对比度等)。而本文的方法可能结合了 Slot Attention 机制,这属于深度学习中的注意力机制,特别是对象中心学习(OCL)的概念。提出了 Slot-in-Slot Attention 结构,这是对标准 Slot Attention 的扩展,采用层次化结构逐步聚类特征,同时引入可学习的提示(prompts)来适应不同的曝光条件。主要模块包括SPIM和SSAB,编码器-解码器结构
2025-07-03 09:23:58
944
原创 【读点论文】You Only Need 90K Parameters to Adapt Light解构ISP参数,结合局部像素细节与全局感知,进行色彩变换和γ矫正,处理低光照和过曝问题
我们提出了一种新颖的轻量级 Transformer 框架IAT,通过调整ISP相关的参数,以适应具有挑战性的光条件。尽管在几个真实世界的数据集上,无论是低级任务还是高级任务,IAT都有着优越的性能,但它非常轻,速度很快。轻量级和移动友好的IAT有可能成为计算机视觉社区的常设工具。分解 ISP 流水线,分为局部和全局分支,用注意力查询来调整参数,比如色彩校正、 gamma 校正。 IAT 有两个分支:局部分支和全局 ISP 分支。局部分支用像素级的调整,替换 Transformer 的注意力块为深度卷积,保持
2025-07-01 09:36:01
925
原创 【读点论文】Prototype Completion with Primitive Knowledge for Few-Shot Learning引入原始知识和高斯融合策略提升新类原型的表征能力
原型补全网络(ProtoComNet),编码器 - 聚合器 - 解码器三组件,核心模块,用于利用原始知识补全新类原型,encoder和decoder压缩并重建原型,捕捉先验知识中的属性关系;aggregator`动态调整类别邻接矩阵,结合语义嵌入增强类别关联;reparameterize通过高斯噪声融合均值原型和补全原型,降低先验知识噪声的影响。关键的挑战是如何获得更具代表性的原型,因为新的类样本作为具有大方差的组传播。为了解决这个问题,**我们提出了一个原型完成网络,通过原始知识完成原型,并提出了一个基于
2025-06-24 14:16:23
826
原创 【读点论文】Dissecting Out-of-Distribution Detection and Open-Set Recognition,分离语义偏移与协变量偏移,提供了可复现的实验框架
**OOD 与 OSR 的内在关联**:两者本质上处理不同类型的分布偏移(OOD 侧重协变量偏移,OSR 侧重语义偏移),但方法性能高度相关,可交叉应用。幅度敏感的评分规则(如 MLS、Energy)优于传统方法(如 MSP、ODIN),因其利用特征幅度差异,对分布偏移更鲁棒。OE 在小规模基准中表现优异,但依赖辅助数据与测试数据的分布重叠,大规模场景下泛化性不足。传统小规模基准未分离语义与协变量偏移,新提出的基准能更准确评估模型应对真实场景偏移的能力。OE 等依赖辅助数据的方法,**其性能取决于辅助数据与
2025-06-22 16:04:04
930
原创 【读点论文】Rethinking Out-of-distribution Detection: Masked Image Modeling is All You Need通过生成任务来理解分类模式
这篇论文主要探讨了如何更好地检测图像中的 “异常样本”(即不属于已知数据分布的样本,简称 OOD)。传统方法通常通过分类任务来学习正常样本(ID)的特征,但这类方法容易让模型只记住表面特征,不是真正理解数据。MOOD 的核心突破在于将 OOD 检测从 “判别性任务” 重构为 “生成性任务”。通过掩码图像建模,模型不再记忆 “猫有胡须”,而是理解 “猫的头部结构应符合哺乳动物的对称性”。这种从局部到全局、从表面到本质的范式转变,为 OOD 检测开辟了新路径 ——真正的鲁棒性,源于对数据生成规律的深刻理解。
2025-06-21 16:11:42
568
原创 【读点论文】PIP-Net Patch Based Intuitive Prototypes for Interpretable Image Classification通过两阶段训练学习补丁原型
模仿人类基于部件识别物体的方式,以可解释性为设计出发点构建图像分类器。利用自监督学习,在仅使用图像级标签且不依赖额外部件注释的情况下,自动识别语义有意义的部件作为原型。**通过设计特殊的损失函数,优化原型使其与人类视觉感知更好地相关,从而缩小语义差距**。现有方法仅在类别层面正则化可解释性,假设 “同类图像的部件原型相同”,但这一假设不成立。例如,在二分类任务(“太阳或狗” vs “无太阳和狗”)中,传统模型可能学习一个同时代表 “太阳” 和 “狗” 的原型,而人类直观上期望两个独立原型。构建一个**自监督
2025-06-19 13:33:45
1014
原创 【读点论文】A Survey on Open-Set Image Recognition
OSR 的核心任务是在测试时同时完成已知类样本的分类和未知类样本的识别。与封闭集识别不同,OSR 假设测试集中存在训练时未接触过的新类别,要求模型具备 “拒绝未知” 的能力。例如,在自动驾驶场景中,模型不仅需识别已知的车辆、行人等类别,还需对未训练过的新型障碍物发出警告。鉴于近两三年来OSR方法的快速发展,本文旨在总结其最新进展。具体来说,我们首先介绍了一个新的分类,在此分类下,我们全面回顾了现有的基于DNN的OSR方法。然后,在标准数据集和交叉数据集下,比较了一些典型的和最新的OSR方法在粗粒度数据集和细
2025-06-14 15:01:50
879
原创 【读点论文】Towards Open Set Deep Networks计算每个类别的激活向量均值,用Weibull分布拟合激活向量与均值距离,计算输入属于该类的 离群概率,引入未知类的伪激活
开放集识别的核心问题是传统深度学习模型在封闭集下工作,无法处理未知类。论文提出的 OpenMax 方法通过引入新的层来估计未知类的概率。利用倒数第二层的激活向量,结合元识别和极值理论来估计未知概率。OpenMax 修改了 SoftMax 层,允许未知类的存在。数学原理部分可能涉及 Weibull 分布的拟合,用于计算输入属于已知类的概率,从而估计未知类的概率。涉及特征空间中的距离度量,而非像素空间,因为对抗样本在像素空间接近但特征空间可能远离。openmax是对传统softmax函数的一种改进。
2025-06-07 15:31:51
636
原创 【读点论文】Joint Distribution Matters: Deep Brownian Distance Covariance for FSC捕捉复杂的依赖关系,联合分布与边缘分布进行图像表征
将图像通过卷积网络提取特征,然后将特征转换为BDC矩阵,作为图像的表示。BDC矩阵的计算基于特征向量的欧氏距离,然后通过特定的公式归一化。这样,两个图像的相似度可以通过它们的BDC矩阵的内积来计算。**BDC的定义涉及到联合特征函数和边缘特征函数的差值的平方积分,再除以一些归一化因子**。对于离散数据,可以用欧氏距离矩阵来近似。公式(4)中的迹运算可能将距离矩阵转换为标量,从而得到一个对称的矩阵,适合做相似度比较。通过统计依赖性来衡量图像之间的相似性,而不是简单的特征距离。因为BDC能够捕捉到更复杂的依赖关
2025-05-29 17:28:19
670
原创 【读点论文】ViM: Out-Of-Distribution with Virtual-logit Matching从特征相对于主空间的残差生成代表虚拟 OOD 类的额外 logit
ViM 的核心目标是**同时利用特征空间的类无关残差信息(与具体类别无关的特征分布特性)和 logit 的类相关判别信息(模型对已知类别的分类置信度)**,解决传统 OOD 检测仅依赖单一信息(如仅用 logit 的最大置信度 MSP,或仅用特征残差)导致的脆弱性问题。**中间特征**:模型最后一层全连接层前的特征(如 ViT 的 CLS token 特征),记为`feature`(类无关的原始特征空间)。全连接层参数:分类头的权重`w`和偏置`b`(类相关的判别信息,决定 logit 的计算)。
2025-05-27 13:41:23
664
原创 【读点论文】 MixNet: Toward Accurate Detection of Challenging Scene Text in the Wild获取高分辨率特征,基于中心线特征分离文本实例
MixNet 的核心算法逻辑围绕 “解决小文本检测难点” 展开,通过两大模块协同实现:通过跨尺度特征交换机制,将低分辨率的抗噪特征与高分辨率的细节特征融合,生成更鲁棒的高分辨率表示。具体而言,通过洗牌层将不同尺度的特征通道分割后重组,既保留了空间细节(高分辨率),又引入了深层语义信息(低分辨率),从而提升小文本的特征辨识度。利用文本的 1D 流形特性(即文本轮廓可近似为中心线的扩展),通过采样轮廓点和中心线点的特征,借助 Transformer 的自注意力机制捕捉全局几何关系。当相邻文本轮廓重叠时,中心线仍
2025-05-23 09:48:44
880
原创 【读点论文】Enhancing STD with Realistic Text Image Synthesis Using Diffusion局部裁剪策略,实例过滤策略提升文本质量与一致性
获取高质量的训练数据耗时且成本高。现有方法通过合成文本图像作为补充资源,但合成数据在文本与背景的融合上仍有不足。为此,本文提出了一种基于扩散模型的文本生成器(DiffText),通过将前景文本与背景特征无缝融合,生成更真实的文本图像。DiffText利用自动编码器、文本编码器和去噪模块,结合局部裁剪和实例过滤策略,提升了文本的视觉连贯性和质量。实验表明,DiffText生成的文本图像在场景文本检测任务中显著优于其他合成数据,尤其在处理水平、旋转、弯曲和行级文本时表现出色。代码已开源,供进一步研究和应用。
2025-05-19 13:26:56
812
原创 【读点论文】OPEN-SET RECOGNITION: A GOOD CLOSED-SET CLASSIFIER IS ALL YOU NEED?找个更好的闭集分类器,使用logits进行分类,有用?
本文探讨了开集识别(OSR)任务,提出了一种通过提升闭集分类器性能来增强OSR能力的方法。研究发现,闭集分类器的准确性与开放集性能高度相关,表明更好的闭集分类器能够更可靠地区分已知和未知类别。作者通过改进闭集训练策略,如更长的训练时间、更好的数据增强、标签平滑和余弦学习率调度,提升闭集分类器的准确性,并将开放集检测的评分规则从最大软max概率改为最大对数几率(MLS),以利用未归一化的原始输出信息。实验结果表明,这种简单的基线方法在许多OSR基准上达到了最先进的水平,甚至超越了复杂的OSR方法。
2025-05-16 15:46:20
833
原创 【读点论文】Class Anchor Clustering A Loss for Distance-based OSR锚点损失约束类内紧凑性,Tuplet损失约束类间分离性。动态更新锚点提高输出质量
旨在解决开集识别中深度神经网络在处理未知类别时的问题。传统的开集分类器通过测量网络logit空间中的距离来区分已知和未知类别,但这种方法通常依赖于交叉熵损失训练的网络,无法保证已知类在logit空间中的紧密聚类。CAC损失通过显式地训练已知类别在logit空间中围绕锚定的类相关中心形成紧密的聚类,从而提高了开集分类器的性能。实验表明,CAC损失在多个标准基准数据集上实现了最先进的性能,特别是在TinyImageNet数据集上,AUROC提高了15.2%,同时保持了分类精度。此外,CAC损失结合了Anchor
2025-05-15 16:44:32
727
原创 【读点论文】Deep Clustering for Unsupervised Learning of Visual Features聚类生成伪标签,伪标签指导网络学习更具判别力特征,左脚踩右脚
本文提出了DeepCluster,一种用于无监督视觉特征学习的深度聚类方法。该方法结合卷积神经网络(CNN)和标准聚类算法(如k-means),通过迭代进行特征聚类和网络参数更新,实现端到端的无监督训练。具体步骤包括:首先使用当前网络提取特征,通过k-means生成伪标签,然后利用这些伪标签更新网络参数。为避免平凡解,DeepCluster处理空簇和不平衡簇问题,如重新分配空簇中心、按簇大小加权损失函数。实验表明,DeepCluster在ImageNet和YFCC100M等大规模数据集上训练时,显著超越了现
2025-05-14 09:05:37
838
原创 【读点论文】Nearest Neighbor Guidance for Out-of-Distribution Detection通过最近邻的特征相似性来引导分类器的置信度
核心目标是进行分布外样本(Out - of - Distribution, OOD)检测,不仅要对 ID 样本进行分类,更重要的是能够准确区分 ID 样本和 OOD 样本。同时,还可以进一步区分 near OOD(与 ID 分布较接近的 OOD 样本)和 far OOD(与 ID 分布差异较大的 OOD 样本)。结合了置信度和近邻信息。在训练阶段,使用训练数据的 logits 计算置信度,并将特征与置信度相乘,增强可靠样本的特征表示。在推理阶段,对测试样本计算置信度,并结合 k 近邻得分生成最终异常分数,以
2025-05-09 09:10:57
696
原创 【读点论文】Energy-based Out-of-distribution Detection训练时通过辅助OOD数据微调模型,推理使用训练模型计算能量分数,替代softmax置信度进行OOD检测
确定输入是否为非分布(OOD)是在开放世界中安全部署机器学习模型的基本构件。然而,以前依赖于softmax置信度得分的方法会受到OOD数据的过度自信后验分布的影响。我们提出了一个统一的框架,OOD检测,使用能量评分。我们表明,与使用softmax评分的传统方法相比,能量评分可以更好地区分分布内和分布外样本。与softmax置信度得分不同,能量得分理论上与输入的概率密度一致,并且不太容易受到过度自信问题的影响。在此框架内,能量可以灵活地用作任何预训练神经分类器的评分函数以及可训练的成本函数,以明确地形成用于
2025-05-06 09:09:34
1134
原创 【读点论文】Generalized Out-of-Distribution Detection: A Survey
在这个调查中,我们首先提出了一个统一的框架,称为广义OOD检测,它包含了上述五个问题,即AD,ND,OSR,OOD检测和OD。在我们的框架下,这五个问题可以看作特例或者子任务,更容易区分。尽管对相关领域进行了全面的调查,但对 OOD 检测方法的总结仍不完整,需要进一步的改进。本文特别指出了 OOD 检测领域最新技术发展的差距。它还提供了其他子任务的代表性方法的综合讨论,以及它们如何与 OOD 检测方法的发展相关和启发。调查的结论是确定公开的挑战和潜在的研究方向。
2025-04-25 10:33:45
1170
原创 【读点论文】Mitigating Neural Network Overconfidence with Logit Norm 对分类特征层及输出归一化,对softmax温度调优
在开放世界中部署的现代神经网络经常与分布外(OOD)输入进行斗争,分布外(OOD)输入是指来自不同分布的样本,网络在训练期间没有接触过这些样本,因此不应该在测试时以高置信度进行预测。一个可靠的分类器不仅应该准确地分类已知的内部分布(ID)样本,而且还应该将任何OOD输入识别为“未知”。这提高了OOD检测的重要性,它确定输入是ID还是OOD,并允许模型在部署中采取预防措施。一种简单的解决方案使用最大软最大概率(MSP)——也称为软最大置信度——进行OOD检测 。操作假设是OOD数据应该比ID数据触发相对较低的
2025-04-23 14:16:33
994
原创 【读点论文】Multi-Label Image Classification via Category Prototype Comp Learn通过组合分解多标签对象提升泛化能力,构建对象潜在关系
所提供的 GT 仅告知对象是否存在于图像中。没有给出诸如对象位置和属性的其他详细信息。这阻碍了模型学习可在对象检测任务中学习的区别特征提取器。尽管已经采用了一些措施,如注意机制 ,但分类性能仍然不能令人满意。组合性是真实世界应用中的一个常见特征,例如一个对象由多个属性组成,一个图像由多个对象组成。在计算机视觉中,这种合成性质已经在许多领域得到了应用,并在属性学习 、零样本学习 、图像检索 等方面取得了巨大的成功。
2025-04-21 10:53:30
862
原创 【读点论文】Asymmetric Loss For Multi-Label Classification不对称损失,改进版的focal loss,分类处理难易样本
本文提出了一种用于多标签分类的非对称损失(ASL)。ASL包含两个互补的不对称机制,它们对阳性和阴性样本的作用不同。通过检查ASL衍生工具,我们对损失属性有了更深的理解。**通过网络概率分析,我们证明了ASL在平衡正负样本方面的有效性,并提出了一种自适应方案,可以在整个训练过程中动态调整不对称水平**。大量的实验分析表明,在包括MS-COCO、Pascal-VOC、NUSWIDE和Open Images在内的流行的多标签分类基准上,ASL优于常见的损失函数和先前的最新方法。ASL 通过不对称聚正负不平衡与负
2025-04-20 14:23:57
710
原创 【读点论文】Adaptive Task-Aware Refining Network for FSFG Image Classification动态任务表示生成→任务级区域筛选→实例级特征精炼
细粒度图像分类 旨在区分同一超级类别中的各种子类别(例如,各种鸟类)。如图1所示,由于类别之间的细微差异和类别内的大差异的特征,这些子类别的识别比一般的图像识别更困难。大多数现有的细粒度方法严重依赖于大型数据集的可用性。然而,在现实场景中,注释大量细粒度的子类别是非常昂贵的,也是不实际的。例如,在医学诊断中,准确识别疾病的各种亚型通常需要医学专业人员的专业知识。许多其他领域也面临子样本稀缺的问题,包括濒危物种保护领域。因此,许多研究人员将研究重点转移到少样本学习 ,探索如何用少量标记样本解决细粒度图像识别问
2025-04-16 10:34:44
657
原创 【读点论文】DEEP ANOMALY DETECTION WITH OUTLIER EXPOSURE构建一个分布外数据集,让模型知道自己不知道的是什么,有点鸡肋
部署中的机器学习系统经常遇到与模型的训练数据不同的数据。这可能发生在发现新的天文现象、发现未知疾病或检测传感器故障时。在这些情况下,可以检测异常的模型能够正确标记人为干预的不寻常的例子,或谨慎地进行更保守的回退策略。许多机器学习系统的背后是深度学习模型,这些模型可以在各种应用程序中提供高性能,只要测试时看到的数据与训练数据相似。然而,当存在分布不匹配时,深度神经网络分类器往往会对异常测试示例给出高置信度预测 。这可能会使预测概率作为校准置信估计的使用失效 ,并使检测异常样本变得更加重要。一些先前的工作试图通
2025-04-11 09:02:05
625
原创 【读点论文】SRFormer: Text Detection Transformer with Incorporated Seg and Reg基于DETR的分割和回归,可变形注意力机制
近年来,场景文本检测和识别取得了很大进展,由于其广泛的实际应用,如自动驾驶和文档智能,在研究界和工业界都引起了越来越多的关注。尽管是一个彻底研究的领域,文本检测在现有方法的领域内仍然是一个具有挑战性的努力,特别是当面对涉及重叠、不规则形状和风格化的文本实例的复杂场景时。先前的文本检测工作可以大致分为两类:基于回归和基于分割的方法。基于回归的方法提供了显著的优势,包括计算效率和对不同大小的文本的适应性,使它们适合于实时应用和大小文本实例的检测。此外,他们的端到端学习方法简化了流水线,支持几何计算的后处理。然而
2025-04-10 11:00:56
1034
原创 【读点论文】Evidential Deep Learning to Quantify Classification Uncertainty高置信度错误可能是softmax缺陷,通过迪利克雷计算不确定性
OOD 指这么一类任务,即测试时遇到的样本和训练时的样本要么不是一个 class 的(新类检测),要么是属于同一个 class 的不同 domain 的图像(比如同一个疾病的不同模态;同一个人像的不同绘画风格;同一个图像源的不同采集角度、采集参数等等)。根据具体的任务,OOD 还能继续细分为 near OOD 和 far OOD。其中 near OOD 就是指长得和训练数据很像,但是仍然属于 OOD 范畴的输入数据。医学影像中的罕见病灶往往都符合 near OOD 的定义,因此,将这些玩意儿检测出来显得具有
2025-04-09 09:10:12
710
原创 【读点论文】TOWARDS NEURAL NETWORKS THAT PROVABLY KNOW WHEN THEY DON’T KNOW使用高斯混合模型来估计分布内外密度
深度学习模型正被部署在越来越多的应用程序中。随着越来越多的系统在安全性方面受到关注,确保深度学习模型按预期工作非常重要。在这一领域受到广泛关注的一个话题是对抗性示例问题,其中可以通过向最初正确分类的样本引入一个小扰动来改变模型的预测。实现对这种扰动的鲁棒性是一个活跃的研究领域。根据经验,对抗性训练表现良好,并且已经开发出可证明的鲁棒模型。另一方面,研究深度学习模型在远离训练样本的情况下如何表现也很重要。每个分类器应该满足的一个简单属性是,远离训练数据,它应该在类上产生接近一致的置信度:当它不知道时,它知道。
2025-04-07 14:02:12
960
原创 【读点论文】Why ReLU networks yield high-confidence predictions far away from the training data and how to
在野外使用的分类器,特别是用于安全关键系统的分类器,不仅应该具有良好的泛化特性,而且应该知道它们何时不知道,特别是远离训练数据进行低置信度预测。我们表明,产生分段线性分类器函数的ReLU型神经网络在这方面失败,因为它们几乎总是产生远离训练数据的高置信度预测。。我们表明,与标准训练相比,这种技术在降低远离训练数据的预测的置信度方面令人惊讶地有效,同时在原始分类任务上保持高置信度预测和测试误差。论文地址:[这个工作指出 ReLU 网络在远离训练数据时会产生高置信度预测,这在安全关键系统中是不可取的。
2025-04-02 19:19:33
977
原创 【读点论文】Lightweight deep learning models for aerial scene classification: A comprehensive survey
由于其广泛的应用,包括自然灾害探测、城市规划、灾害管理和环境监测,航空场景分类近年来受到了广泛的关注。过去,研究人员主要依靠手工制作的基于特征的方法,如颜色直方图、尺度不变特征变换(SIFT)和梯度方向直方图。随着技术的进步,除了这些手工制作的基于特征的方法之外,还出现了机器学习和深度学习方法。机器学习模型通常具有浅层结构,而深度神经网络(DNNs)拥有能够从图像中提取高质量特征表示的更深层架构。为了应对这些挑战,研究人员开发了轻量级深度学习模型,这些模型与传统模型一样高效,但需要的资源更少。这种高效、轻量
2025-03-28 14:05:53
715
原创 【读点论文】 Fine-grained Recognition with Learnable Semantic Data Augmentation 在特征空间中对样本增强,构建元学习框架,依任务选增强
核心思想是在特征空间中对训练样本进行增强,而非在图像空间中进行传统的数据增强操作。通过这种方式,可以避免图像级数据增强可能带来的判别区域损失问题。具体来说,该方法通过协方差预测网络(CovNet)预测每个训练样本的语义方向,然后沿着这些方向在特征空间中对样本进行变换,从而生成多样化的增强样本。这种方法不仅能够保留图像中的判别性细节,还能提高模型对细粒度类别差异的识别能力。对于每个训练样本,其深度特征被表示为向量,协方差预测网络预测该样本的协方差矩阵,该矩阵定义了特征空间中的语义方向。通过在这些方向上对特征进
2025-03-26 19:37:15
1017
原创 【读点论文】面向识别的长弯曲文本预处理算法,有点局限
在特定场景下、例如书籍扫描时,长文本的弯曲性对于整个文本图像的识别准确率影响较大,因此提升长弯曲文本识别的准确率具有重要的意义。本文提出长弯曲文本处理模块(LCTP),分别从消除干扰信息和降低弯曲程度两个方面来降低对文本识别准确率的影响。将 LCTP 应用在不同的主流 OCR框架,在手动采集的 Long Curve Text 数据集的验证中,均取得了不错的识别效果。
2025-03-25 11:19:22
888
原创 【读点论文】Deep Metric Learning for Few-Shot Image Classification: A Selective Review
在Matching networks论文中对训练周期的定义上提出了episodes的概念,为了区别大数据训练的epochs,在episodes周期里,都是为了服务于few-shot任务的子类别样本训练,这个子类别就是区别于epochs中全类别子样本训练。很多meta-leaming中的任务也喜欢用episodes这个词汇,而对应神经网络中的minibatch是比较合适的。元学习旨在训练一个模型,使其能够快速适应新的任务。
2025-03-21 14:57:51
878
原创 【读点论文】Data Augmentation in Classification and Segmentation: A Survey and New Strategies
深度学习模型,像CNN,容易过度拟合。在这项工作中,我们调查了数据增强技术,特别是最近在采用数据增强技术的图像分类和分割方面的研究,这些技术对于深度学习模型克服过拟合问题并实现更好的性能至关重要。**此外,我们提出了一种几何增强技术,即RLR(随机局部旋转),专注于操纵图像中的局部信息,而不增加非原始像素值**。定量和定性实验结果表明,在分类和一些分割任务中,RLR可以比传统的旋转技术更有效,因此,很好地补充了现有的数据增强技术。
2025-03-20 18:16:43
940
原创 pytorch中有哪些损失函数
每一个样本经过模型后会得到一个预测值,然后得到的预测值和真实值的差值就成为损失(当然损失值越小证明模型越是成功),我们知道有许多不同种类的损失函数,这些函数本质上就是计算预测值和真实值的差距的一类型函数,然后经过库(如pytorch,tensorflow等)的封装形成了有具体名字的函数。在机器学习中,我们知道输入的feature(或称为x)需要通过模型预测出y,此过程称为向前传播,而要将预测与真实值的差值减小需要更新模型中的参数,这个过程称为向后传播其中我们损失函数就基于这两种传播之间
2025-03-18 16:49:40
736
原创 【读点论文】SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting特征对齐,将局部特征和长程依赖结合起来用于定位与识别
场景文本识别需要在自然图像中查找和识别文本,近年来由于其在自动驾驶、智能导航和关键实体识别等领域的实际应用而受到了广泛关注。尽管最近取得了进展,但由于存在各种背景噪声以及文本形状、颜色、字体、语言和布局的巨大差异,文本识别仍然是一个复杂且尚未解决的问题。经典的场景文本识别方法通常将文本识别视为两个独立的任务,首先找到文本的位置,然后由识别器将检测到的区域转换为字符序列。然而,这种流程有几个缺点,包括(1)文本检测和识别之间的错误累积,即文本识别的性能对文本检测的结果非常敏感;(2)分别优化两个任务导致的次优
2025-02-21 13:46:32
1127
原创 【读点论文】SwinTextSpotter: Scene Text Spotting via Better Synergy between TD and TR将文本定位与识别结合在一起
在文本检测任务中,表 5 和表 6 中的结果表明,SwinTextSpotter 在两个数据集上都可以达到 88% 的 H 均值,在 Total-Text 和 SCUT-CTW1500 上分别比之前最先进的方法高出 1.0% 和 3.3%。对于端到端场景文本识别任务,根据表 5,SwinTextSpotter 在 TotalText 上的表现明显优于之前的方法,F 测量值为 74.3%,比 ABCNet v2 高 3.9%,比 MANGO 高 1.4%。通过多阶段的细化,该检测器可应用于任何规模的文本。
2025-02-20 14:23:07
1070
原创 【读点论文】Rewrite the Stars将svm的核技巧映射到高维空间,从数理逻辑中丰富特征维度维度
文章指出星操作能够将输入映射到一个非常高维的非线性特征空间中,类似于多项式核函数。通过重写和重构星操作,作者发现这一看似简单的操作可以在紧凑的特征空间内生成大约 $(\frac{d}{\sqrt 2})^2$ 个线性独立维度。**这与传统的增加网络宽度(即通道数量)来提高模型复杂度的方法不同,而是更像一种进行跨通道特征乘法的核函数**。该研究试图解决的问题是如何在不牺牲精度的情况下显著减少计算成本和参数量,特别是在移动设备上的部署问题。核心是 “星操作”(star operation,即元素级乘法)。作者认
2025-02-14 17:50:41
1117
原创 【读点论文】Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks使用部分卷积计算,减少特征图访存通信来实现低延迟推理
FasterNet架构:4个阶段,每阶段前通过嵌入层(4x4 Conv,stride 4)或下采样层(2x2 Conv,stride 2)调整分辨率。FasterNet块:由PConv + 两个PWConv组成,中间加入归一化(BN)和激活(GELU/ReLU),残差连接提升训练稳定性。归一化与激活:仅在中间PWConv后使用BN,避免过多非线性层影响特征多样性。还推出了基于PConv的通用FasterNet,它在各种设备和视觉任务上实现了一流的速度和精度平衡。我们希望我们的PConv和FasterNet能
2025-02-12 16:00:30
987
2021-2022年的高精度模型,swin transformer.convnext等
2023-02-04
轻量化混合(卷积和transformer)网络,发论文的热点
2023-02-03
mobilenet系列V1-V3
2022-06-05
图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。
2022-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人