- 博客(386)
- 资源 (13)
- 收藏
- 关注
原创 【读点论文】 MixNet: Toward Accurate Detection of Challenging Scene Text in the Wild获取高分辨率特征,基于中心线特征分离文本实例
MixNet 的核心算法逻辑围绕 “解决小文本检测难点” 展开,通过两大模块协同实现:通过跨尺度特征交换机制,将低分辨率的抗噪特征与高分辨率的细节特征融合,生成更鲁棒的高分辨率表示。具体而言,通过洗牌层将不同尺度的特征通道分割后重组,既保留了空间细节(高分辨率),又引入了深层语义信息(低分辨率),从而提升小文本的特征辨识度。利用文本的 1D 流形特性(即文本轮廓可近似为中心线的扩展),通过采样轮廓点和中心线点的特征,借助 Transformer 的自注意力机制捕捉全局几何关系。当相邻文本轮廓重叠时,中心线仍
2025-05-23 09:48:44
804
原创 【读点论文】Enhancing STD with Realistic Text Image Synthesis Using Diffusion局部裁剪策略,实例过滤策略提升文本质量与一致性
获取高质量的训练数据耗时且成本高。现有方法通过合成文本图像作为补充资源,但合成数据在文本与背景的融合上仍有不足。为此,本文提出了一种基于扩散模型的文本生成器(DiffText),通过将前景文本与背景特征无缝融合,生成更真实的文本图像。DiffText利用自动编码器、文本编码器和去噪模块,结合局部裁剪和实例过滤策略,提升了文本的视觉连贯性和质量。实验表明,DiffText生成的文本图像在场景文本检测任务中显著优于其他合成数据,尤其在处理水平、旋转、弯曲和行级文本时表现出色。代码已开源,供进一步研究和应用。
2025-05-19 13:26:56
762
原创 【读点论文】OPEN-SET RECOGNITION: A GOOD CLOSED-SET CLASSIFIER IS ALL YOU NEED?找个更好的闭集分类器,使用logits进行分类,有用?
本文探讨了开集识别(OSR)任务,提出了一种通过提升闭集分类器性能来增强OSR能力的方法。研究发现,闭集分类器的准确性与开放集性能高度相关,表明更好的闭集分类器能够更可靠地区分已知和未知类别。作者通过改进闭集训练策略,如更长的训练时间、更好的数据增强、标签平滑和余弦学习率调度,提升闭集分类器的准确性,并将开放集检测的评分规则从最大软max概率改为最大对数几率(MLS),以利用未归一化的原始输出信息。实验结果表明,这种简单的基线方法在许多OSR基准上达到了最先进的水平,甚至超越了复杂的OSR方法。
2025-05-16 15:46:20
741
原创 【读点论文】Class Anchor Clustering A Loss for Distance-based OSR锚点损失约束类内紧凑性,Tuplet损失约束类间分离性。动态更新锚点提高输出质量
旨在解决开集识别中深度神经网络在处理未知类别时的问题。传统的开集分类器通过测量网络logit空间中的距离来区分已知和未知类别,但这种方法通常依赖于交叉熵损失训练的网络,无法保证已知类在logit空间中的紧密聚类。CAC损失通过显式地训练已知类别在logit空间中围绕锚定的类相关中心形成紧密的聚类,从而提高了开集分类器的性能。实验表明,CAC损失在多个标准基准数据集上实现了最先进的性能,特别是在TinyImageNet数据集上,AUROC提高了15.2%,同时保持了分类精度。此外,CAC损失结合了Anchor
2025-05-15 16:44:32
674
原创 【读点论文】Deep Clustering for Unsupervised Learning of Visual Features聚类生成伪标签,伪标签指导网络学习更具判别力特征,左脚踩右脚
本文提出了DeepCluster,一种用于无监督视觉特征学习的深度聚类方法。该方法结合卷积神经网络(CNN)和标准聚类算法(如k-means),通过迭代进行特征聚类和网络参数更新,实现端到端的无监督训练。具体步骤包括:首先使用当前网络提取特征,通过k-means生成伪标签,然后利用这些伪标签更新网络参数。为避免平凡解,DeepCluster处理空簇和不平衡簇问题,如重新分配空簇中心、按簇大小加权损失函数。实验表明,DeepCluster在ImageNet和YFCC100M等大规模数据集上训练时,显著超越了现
2025-05-14 09:05:37
764
原创 【读点论文】Nearest Neighbor Guidance for Out-of-Distribution Detection通过最近邻的特征相似性来引导分类器的置信度
核心目标是进行分布外样本(Out - of - Distribution, OOD)检测,不仅要对 ID 样本进行分类,更重要的是能够准确区分 ID 样本和 OOD 样本。同时,还可以进一步区分 near OOD(与 ID 分布较接近的 OOD 样本)和 far OOD(与 ID 分布差异较大的 OOD 样本)。结合了置信度和近邻信息。在训练阶段,使用训练数据的 logits 计算置信度,并将特征与置信度相乘,增强可靠样本的特征表示。在推理阶段,对测试样本计算置信度,并结合 k 近邻得分生成最终异常分数,以
2025-05-09 09:10:57
658
原创 【读点论文】Energy-based Out-of-distribution Detection训练时通过辅助OOD数据微调模型,推理使用训练模型计算能量分数,替代softmax置信度进行OOD检测
确定输入是否为非分布(OOD)是在开放世界中安全部署机器学习模型的基本构件。然而,以前依赖于softmax置信度得分的方法会受到OOD数据的过度自信后验分布的影响。我们提出了一个统一的框架,OOD检测,使用能量评分。我们表明,与使用softmax评分的传统方法相比,能量评分可以更好地区分分布内和分布外样本。与softmax置信度得分不同,能量得分理论上与输入的概率密度一致,并且不太容易受到过度自信问题的影响。在此框架内,能量可以灵活地用作任何预训练神经分类器的评分函数以及可训练的成本函数,以明确地形成用于
2025-05-06 09:09:34
1029
原创 【读点论文】Generalized Out-of-Distribution Detection: A Survey
在这个调查中,我们首先提出了一个统一的框架,称为广义OOD检测,它包含了上述五个问题,即AD,ND,OSR,OOD检测和OD。在我们的框架下,这五个问题可以看作特例或者子任务,更容易区分。尽管对相关领域进行了全面的调查,但对 OOD 检测方法的总结仍不完整,需要进一步的改进。本文特别指出了 OOD 检测领域最新技术发展的差距。它还提供了其他子任务的代表性方法的综合讨论,以及它们如何与 OOD 检测方法的发展相关和启发。调查的结论是确定公开的挑战和潜在的研究方向。
2025-04-25 10:33:45
1119
原创 【读点论文】Mitigating Neural Network Overconfidence with Logit Norm 对分类特征层及输出归一化,对softmax温度调优
在开放世界中部署的现代神经网络经常与分布外(OOD)输入进行斗争,分布外(OOD)输入是指来自不同分布的样本,网络在训练期间没有接触过这些样本,因此不应该在测试时以高置信度进行预测。一个可靠的分类器不仅应该准确地分类已知的内部分布(ID)样本,而且还应该将任何OOD输入识别为“未知”。这提高了OOD检测的重要性,它确定输入是ID还是OOD,并允许模型在部署中采取预防措施。一种简单的解决方案使用最大软最大概率(MSP)——也称为软最大置信度——进行OOD检测 。操作假设是OOD数据应该比ID数据触发相对较低的
2025-04-23 14:16:33
934
原创 【读点论文】Multi-Label Image Classification via Category Prototype Comp Learn通过组合分解多标签对象提升泛化能力,构建对象潜在关系
所提供的 GT 仅告知对象是否存在于图像中。没有给出诸如对象位置和属性的其他详细信息。这阻碍了模型学习可在对象检测任务中学习的区别特征提取器。尽管已经采用了一些措施,如注意机制 ,但分类性能仍然不能令人满意。组合性是真实世界应用中的一个常见特征,例如一个对象由多个属性组成,一个图像由多个对象组成。在计算机视觉中,这种合成性质已经在许多领域得到了应用,并在属性学习 、零样本学习 、图像检索 等方面取得了巨大的成功。
2025-04-21 10:53:30
832
原创 【读点论文】Asymmetric Loss For Multi-Label Classification不对称损失,改进版的focal loss,分类处理难易样本
本文提出了一种用于多标签分类的非对称损失(ASL)。ASL包含两个互补的不对称机制,它们对阳性和阴性样本的作用不同。通过检查ASL衍生工具,我们对损失属性有了更深的理解。**通过网络概率分析,我们证明了ASL在平衡正负样本方面的有效性,并提出了一种自适应方案,可以在整个训练过程中动态调整不对称水平**。大量的实验分析表明,在包括MS-COCO、Pascal-VOC、NUSWIDE和Open Images在内的流行的多标签分类基准上,ASL优于常见的损失函数和先前的最新方法。ASL 通过不对称聚正负不平衡与负
2025-04-20 14:23:57
632
原创 【读点论文】Adaptive Task-Aware Refining Network for FSFG Image Classification动态任务表示生成→任务级区域筛选→实例级特征精炼
细粒度图像分类 旨在区分同一超级类别中的各种子类别(例如,各种鸟类)。如图1所示,由于类别之间的细微差异和类别内的大差异的特征,这些子类别的识别比一般的图像识别更困难。大多数现有的细粒度方法严重依赖于大型数据集的可用性。然而,在现实场景中,注释大量细粒度的子类别是非常昂贵的,也是不实际的。例如,在医学诊断中,准确识别疾病的各种亚型通常需要医学专业人员的专业知识。许多其他领域也面临子样本稀缺的问题,包括濒危物种保护领域。因此,许多研究人员将研究重点转移到少样本学习 ,探索如何用少量标记样本解决细粒度图像识别问
2025-04-16 10:34:44
625
原创 【读点论文】DEEP ANOMALY DETECTION WITH OUTLIER EXPOSURE构建一个分布外数据集,让模型知道自己不知道的是什么,有点鸡肋
部署中的机器学习系统经常遇到与模型的训练数据不同的数据。这可能发生在发现新的天文现象、发现未知疾病或检测传感器故障时。在这些情况下,可以检测异常的模型能够正确标记人为干预的不寻常的例子,或谨慎地进行更保守的回退策略。许多机器学习系统的背后是深度学习模型,这些模型可以在各种应用程序中提供高性能,只要测试时看到的数据与训练数据相似。然而,当存在分布不匹配时,深度神经网络分类器往往会对异常测试示例给出高置信度预测 。这可能会使预测概率作为校准置信估计的使用失效 ,并使检测异常样本变得更加重要。一些先前的工作试图通
2025-04-11 09:02:05
593
原创 【读点论文】SRFormer: Text Detection Transformer with Incorporated Seg and Reg基于DETR的分割和回归,可变形注意力机制
近年来,场景文本检测和识别取得了很大进展,由于其广泛的实际应用,如自动驾驶和文档智能,在研究界和工业界都引起了越来越多的关注。尽管是一个彻底研究的领域,文本检测在现有方法的领域内仍然是一个具有挑战性的努力,特别是当面对涉及重叠、不规则形状和风格化的文本实例的复杂场景时。先前的文本检测工作可以大致分为两类:基于回归和基于分割的方法。基于回归的方法提供了显著的优势,包括计算效率和对不同大小的文本的适应性,使它们适合于实时应用和大小文本实例的检测。此外,他们的端到端学习方法简化了流水线,支持几何计算的后处理。然而
2025-04-10 11:00:56
982
原创 【读点论文】Evidential Deep Learning to Quantify Classification Uncertainty高置信度错误可能是softmax缺陷,通过迪利克雷计算不确定性
OOD 指这么一类任务,即测试时遇到的样本和训练时的样本要么不是一个 class 的(新类检测),要么是属于同一个 class 的不同 domain 的图像(比如同一个疾病的不同模态;同一个人像的不同绘画风格;同一个图像源的不同采集角度、采集参数等等)。根据具体的任务,OOD 还能继续细分为 near OOD 和 far OOD。其中 near OOD 就是指长得和训练数据很像,但是仍然属于 OOD 范畴的输入数据。医学影像中的罕见病灶往往都符合 near OOD 的定义,因此,将这些玩意儿检测出来显得具有
2025-04-09 09:10:12
621
原创 【读点论文】TOWARDS NEURAL NETWORKS THAT PROVABLY KNOW WHEN THEY DON’T KNOW使用高斯混合模型来估计分布内外密度
深度学习模型正被部署在越来越多的应用程序中。随着越来越多的系统在安全性方面受到关注,确保深度学习模型按预期工作非常重要。在这一领域受到广泛关注的一个话题是对抗性示例问题,其中可以通过向最初正确分类的样本引入一个小扰动来改变模型的预测。实现对这种扰动的鲁棒性是一个活跃的研究领域。根据经验,对抗性训练表现良好,并且已经开发出可证明的鲁棒模型。另一方面,研究深度学习模型在远离训练样本的情况下如何表现也很重要。每个分类器应该满足的一个简单属性是,远离训练数据,它应该在类上产生接近一致的置信度:当它不知道时,它知道。
2025-04-07 14:02:12
926
原创 【读点论文】Why ReLU networks yield high-confidence predictions far away from the training data and how to
在野外使用的分类器,特别是用于安全关键系统的分类器,不仅应该具有良好的泛化特性,而且应该知道它们何时不知道,特别是远离训练数据进行低置信度预测。我们表明,产生分段线性分类器函数的ReLU型神经网络在这方面失败,因为它们几乎总是产生远离训练数据的高置信度预测。。我们表明,与标准训练相比,这种技术在降低远离训练数据的预测的置信度方面令人惊讶地有效,同时在原始分类任务上保持高置信度预测和测试误差。论文地址:[这个工作指出 ReLU 网络在远离训练数据时会产生高置信度预测,这在安全关键系统中是不可取的。
2025-04-02 19:19:33
951
原创 【读点论文】Lightweight deep learning models for aerial scene classification: A comprehensive survey
由于其广泛的应用,包括自然灾害探测、城市规划、灾害管理和环境监测,航空场景分类近年来受到了广泛的关注。过去,研究人员主要依靠手工制作的基于特征的方法,如颜色直方图、尺度不变特征变换(SIFT)和梯度方向直方图。随着技术的进步,除了这些手工制作的基于特征的方法之外,还出现了机器学习和深度学习方法。机器学习模型通常具有浅层结构,而深度神经网络(DNNs)拥有能够从图像中提取高质量特征表示的更深层架构。为了应对这些挑战,研究人员开发了轻量级深度学习模型,这些模型与传统模型一样高效,但需要的资源更少。这种高效、轻量
2025-03-28 14:05:53
671
原创 【读点论文】 Fine-grained Recognition with Learnable Semantic Data Augmentation 在特征空间中对样本增强,构建元学习框架,依任务选增强
核心思想是在特征空间中对训练样本进行增强,而非在图像空间中进行传统的数据增强操作。通过这种方式,可以避免图像级数据增强可能带来的判别区域损失问题。具体来说,该方法通过协方差预测网络(CovNet)预测每个训练样本的语义方向,然后沿着这些方向在特征空间中对样本进行变换,从而生成多样化的增强样本。这种方法不仅能够保留图像中的判别性细节,还能提高模型对细粒度类别差异的识别能力。对于每个训练样本,其深度特征被表示为向量,协方差预测网络预测该样本的协方差矩阵,该矩阵定义了特征空间中的语义方向。通过在这些方向上对特征进
2025-03-26 19:37:15
987
原创 【读点论文】面向识别的长弯曲文本预处理算法,有点局限
在特定场景下、例如书籍扫描时,长文本的弯曲性对于整个文本图像的识别准确率影响较大,因此提升长弯曲文本识别的准确率具有重要的意义。本文提出长弯曲文本处理模块(LCTP),分别从消除干扰信息和降低弯曲程度两个方面来降低对文本识别准确率的影响。将 LCTP 应用在不同的主流 OCR框架,在手动采集的 Long Curve Text 数据集的验证中,均取得了不错的识别效果。
2025-03-25 11:19:22
861
原创 【读点论文】Deep Metric Learning for Few-Shot Image Classification: A Selective Review
在Matching networks论文中对训练周期的定义上提出了episodes的概念,为了区别大数据训练的epochs,在episodes周期里,都是为了服务于few-shot任务的子类别样本训练,这个子类别就是区别于epochs中全类别子样本训练。很多meta-leaming中的任务也喜欢用episodes这个词汇,而对应神经网络中的minibatch是比较合适的。元学习旨在训练一个模型,使其能够快速适应新的任务。
2025-03-21 14:57:51
842
原创 【读点论文】Data Augmentation in Classification and Segmentation: A Survey and New Strategies
深度学习模型,像CNN,容易过度拟合。在这项工作中,我们调查了数据增强技术,特别是最近在采用数据增强技术的图像分类和分割方面的研究,这些技术对于深度学习模型克服过拟合问题并实现更好的性能至关重要。**此外,我们提出了一种几何增强技术,即RLR(随机局部旋转),专注于操纵图像中的局部信息,而不增加非原始像素值**。定量和定性实验结果表明,在分类和一些分割任务中,RLR可以比传统的旋转技术更有效,因此,很好地补充了现有的数据增强技术。
2025-03-20 18:16:43
898
原创 pytorch中有哪些损失函数
每一个样本经过模型后会得到一个预测值,然后得到的预测值和真实值的差值就成为损失(当然损失值越小证明模型越是成功),我们知道有许多不同种类的损失函数,这些函数本质上就是计算预测值和真实值的差距的一类型函数,然后经过库(如pytorch,tensorflow等)的封装形成了有具体名字的函数。在机器学习中,我们知道输入的feature(或称为x)需要通过模型预测出y,此过程称为向前传播,而要将预测与真实值的差值减小需要更新模型中的参数,这个过程称为向后传播其中我们损失函数就基于这两种传播之间
2025-03-18 16:49:40
714
原创 【读点论文】SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting特征对齐,将局部特征和长程依赖结合起来用于定位与识别
场景文本识别需要在自然图像中查找和识别文本,近年来由于其在自动驾驶、智能导航和关键实体识别等领域的实际应用而受到了广泛关注。尽管最近取得了进展,但由于存在各种背景噪声以及文本形状、颜色、字体、语言和布局的巨大差异,文本识别仍然是一个复杂且尚未解决的问题。经典的场景文本识别方法通常将文本识别视为两个独立的任务,首先找到文本的位置,然后由识别器将检测到的区域转换为字符序列。然而,这种流程有几个缺点,包括(1)文本检测和识别之间的错误累积,即文本识别的性能对文本检测的结果非常敏感;(2)分别优化两个任务导致的次优
2025-02-21 13:46:32
1098
原创 【读点论文】SwinTextSpotter: Scene Text Spotting via Better Synergy between TD and TR将文本定位与识别结合在一起
在文本检测任务中,表 5 和表 6 中的结果表明,SwinTextSpotter 在两个数据集上都可以达到 88% 的 H 均值,在 Total-Text 和 SCUT-CTW1500 上分别比之前最先进的方法高出 1.0% 和 3.3%。对于端到端场景文本识别任务,根据表 5,SwinTextSpotter 在 TotalText 上的表现明显优于之前的方法,F 测量值为 74.3%,比 ABCNet v2 高 3.9%,比 MANGO 高 1.4%。通过多阶段的细化,该检测器可应用于任何规模的文本。
2025-02-20 14:23:07
1013
原创 【读点论文】Rewrite the Stars将svm的核技巧映射到高维空间,从数理逻辑中丰富特征维度维度
文章指出星操作能够将输入映射到一个非常高维的非线性特征空间中,类似于多项式核函数。通过重写和重构星操作,作者发现这一看似简单的操作可以在紧凑的特征空间内生成大约 $(\frac{d}{\sqrt 2})^2$ 个线性独立维度。**这与传统的增加网络宽度(即通道数量)来提高模型复杂度的方法不同,而是更像一种进行跨通道特征乘法的核函数**。该研究试图解决的问题是如何在不牺牲精度的情况下显著减少计算成本和参数量,特别是在移动设备上的部署问题。核心是 “星操作”(star operation,即元素级乘法)。作者认
2025-02-14 17:50:41
1096
原创 【读点论文】Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks使用部分卷积计算,减少特征图访存通信来实现低延迟推理
FasterNet架构:4个阶段,每阶段前通过嵌入层(4x4 Conv,stride 4)或下采样层(2x2 Conv,stride 2)调整分辨率。FasterNet块:由PConv + 两个PWConv组成,中间加入归一化(BN)和激活(GELU/ReLU),残差连接提升训练稳定性。归一化与激活:仅在中间PWConv后使用BN,避免过多非线性层影响特征多样性。还推出了基于PConv的通用FasterNet,它在各种设备和视觉任务上实现了一流的速度和精度平衡。我们希望我们的PConv和FasterNet能
2025-02-12 16:00:30
943
原创 【读点论文】YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images还原高分辨率热图进行小目标提点
从航拍图像中检测物体面临着巨大的挑战,原因如下:1)航拍图像通常尺寸非常大,一般有数百万甚至数亿像素,而计算资源有限。2)小物体尺寸导致有效检测的信息不足。3)物体分布不均匀导致计算资源浪费。为了解决这些问题,我们提出了YOLC(You Only Look Clusters),这是一个基于无锚物体检测器CenterNet的高效框架。。此外,我们使用高斯沃瑟斯坦距离(GWD)修改回归损失以获得高质量的边界框。检测头采用可变形卷积和细化方法来增强对小物体的检测。
2025-02-06 11:30:24
649
原创 【读点论文】Fast Hardware-aware Neural Architecture Search通过部署反馈设置搜索空间的约束条件,将搜索分为两个阶段类似于奇异值分解优化复杂度
为大量硬件设计准确而高效的卷积神经架构是一项挑战,因为硬件设计复杂多样。本文解决了神经架构搜索 (NAS) 中的硬件多样性挑战。与以前在小型人工设计的搜索空间上应用搜索算法而不考虑硬件多样性的方法不同,我们提出了 HURRICANE,它在更大的搜索空间和两阶段搜索算法上探索自动硬件感知搜索,以有效地为不同类型的硬件生成定制模型。在 ImageNet 上进行的大量实验表明,在三种类型的硬件上,在相同的延迟约束下,我们的算法优于最先进的硬件感知 NAS 方法。此外,所发现的架构比目前最先进的高效模型实现了更低的
2025-02-05 14:14:26
1305
5
原创 【读点论文】PROXYLESSNAS: DIRECT NEURAL ARCHITECTURE SEARCH ON TARGET TASK AND HARDWARE将算法与硬件结合优化速度与精度
神经架构搜索 (NAS) 通过自动设计有效的神经网络架构产生了巨大影响。然而,传统 NAS 算法的计算需求过高(例如 104 GPU 小时),使得直接在大规模任务(例如 ImageNet)上搜索架构变得困难。可微分 NAS 可以通过网络架构的连续表示来降低 GPU 小时的成本,但存在高 GPU 内存消耗问题(相对于候选集大小呈线性增长)。因此,他们需要利用代理任务,例如在较小的数据集上进行训练,或者只使用几个块进行学习,或者只进行几个时期的训练。这些在代理任务上优化的架构并不能保证在目标任务上达到最优。在本
2025-01-23 19:19:32
1092
原创 【读点论文】NASNet:Learning Transferable Architectures for Scalable Image Recognition以模块为单位进行,模型是维度变化的技术
这篇论文由Google Brain团队撰写,主要研究如何通过神经架构搜索(NAS)直接在数据集上学习模型架构。论文的核心贡献是设计了一个新的搜索空间(NASNet搜索空间),使得在小数据集上学习到的架构可以迁移到更大的数据集上。这篇文章提出了在小数据(CIFAR-10)上学习一个网络单元(Cell),然后通过堆叠更多的这些网络单元的形式将网络迁移到更复杂,尺寸更大的数据集上面。因此这篇文章的最大贡献便是介绍了如何使用强化学习学习这些网络单元。
2025-01-21 15:38:21
1202
1
原创 【读点论文】Efficient and Accurate Arbitrary-Shaped Text Detection with PA 结合连通域分析和嵌入特征距离度量,通过 BFS 扩展实例边界
像素聚合通过预测相似性向量来指导像素的聚合,从而实现对文本区域的精确分割。目标:在预测出文本区域、文本核和相似性向量后,PA方法的目标是将文本区域中的像素精确地聚合到对应的文本核上,重建完整的文本实例。核心思想:利用相似性向量来衡量文本像素与文本核之间的相似度,将相似度高的像素聚合到同一个文本核上。相似性向量能够捕捉文本像素与文本核之间的特征相似性,为像素的聚合提供指导。为了加快网络的速度,对resnet18得出的特征图的维度进行了减小,对应上图的压缩过程。FPEM是一个 U形模组,由两个阶段组成,up-s
2025-01-15 14:19:56
989
原创 【读点论文】ODM: A Text-Image Further Alignment Pre-training Approach for OCR结合文本和图像特征去预训练主干网络。需要更多公开信息
使用ResNet50作为图像编码器提取视觉特征,6层Transformer作为文本编码器提取文本特征,然后通过交叉注意力机制将文本特征与图像特征进行交互,最后利用简单的解码器(FPN层上采样和1x1卷积)重建去风格化的二值图像。在ODM(OCR-Text Destylization Modeling)中,交叉注意力机制是实现文本与图像特征对齐的关键技术之一。促进特征对齐:通过交叉注意力机制,模型能够将文本特征与图像特征进行有效对齐,使得文本提示能够更好地引导图像特征的提取和重建。这对于OCR任务中的文本检测
2025-01-14 18:58:44
736
1
原创 【读点论文】Fourier Contour Embedding for Arbitrary-Shaped Text Detection通过预测傅里叶自由度,系数来拟合任意形状轮廓线
FCENet的一大亮点就是在任意不规则形状的文本场景上表现优异,这得益于它采用了可变形卷积 和傅里叶变换技术。 除此之外,FCENet还具有后处理简单和高。核心在于利用傅里叶变换将复杂的曲线简化为少量的频率成分(即傅里叶系数),然后在需要时再通过逆傅里叶变换恢复出原始曲线。这种方法可以有效地压缩信息并且便于模型训练。同时,为了确保最终输出的是有意义的几何形状,还需要进行一系列的几何变换和筛选操作,比如 NMS 和最小外接矩形计算。这些技术共同作用,使得可以从神经网络的输出中准确地提取出文本区域的多边形表示。
2025-01-13 15:20:51
969
原创 【读点论文】DepGraph: Towards Any Structural Pruning通用的结构化剪枝框架,处理结构化剪枝的图依赖问题
提出了一种非深度图算法DepGraph,实现了架构通用的结构化剪枝,适用于CNNs, Transformers, RNNs, GNNs等网络。DepGraph能够自动地分析复杂的结构耦合,从而正确地移除参数实现网络加速。包括用于图像的 ResNe(X)t、DenseNet、MobileNet 和 Vision Transformer、用于图形的 GAT、用于 3D 点云的 DGCNN 以及用于语言的 LSTM,并证明,即使使用简单的基于规范的标准,所提出的方法也能始终如一地产生令人满意的性能。
2025-01-09 19:14:09
1026
原创 【读点论文】ALightweightFusionStrategyWithEnhancedInterlayerFeatureCorrelationforSOD新的特征融合模块,融合层间特征和分级空间关系
特征金字塔的构建是许多计算机视觉任务中至关重要的一步,是现代检测器不可或缺的组成部分,是解决多尺度问题的基础。**对于较小的目标,特征图往往只包含几个甚至一个像素的有效信息。因此,研究特征融合方法对于准确表示小目标的特征信息尤为重要。FPN构建了一条自上而下的路径,将各个层次的特征结合起来,实现多尺度特征融合**。PANet 在FPN的基础上引入了一条自下而上的路径,有助于将高分辨率信息与更强的语义特征融合。随后,NAS-FPN 和BiFPN 被提出来增强多尺度特征的融合。与许多专注于跨尺度连接的研究不同,
2025-01-09 18:30:19
1100
原创 【读点论文】Visual Text Generation in the Wild先用多模态大模型找出合理区域和内容,再用扩散模型在区域内生成自然的文本图像,应该还是大厂的游戏
提出一种可在真实场景下生成高质量文本图像的方法。该方法需要满足三个关键标准:保真度、合理性和实用性。提出了一种名为SceneVTG的文本图像生成器,采用两阶段范式。第一阶段使用多模态大语言模型推荐合理的文本区域和内容,第二阶段使用条件扩散模型生成文本图像。SceneVTG在保真度和合理性方面显著优于传统的基于渲染和最近的基于扩散的方法。生成的图像对于文本检测和文本识别等任务具有更高的实用性。研究中使用了开源数据集和代码。
2024-12-25 11:23:52
738
4
原创 【读点论文】Shape Robust Text Detection with Progressive Scale Expansion Network通过GT生成核增大类间距,通过逐渐扩展核学习GT。
为了证明我们提出的 PSENet 的有效性,我们在四个竞争性基准数据集上进行了广泛的实验,包括 ICDAR 2015 、ICDAR 2017 MLT 、CTW1500 和 Total-Text 。在这些数据集中,**CTW1500 和 Total-Text 专门用于曲线文本检测**。具体来说,在 CTW1500(一个包含长曲线文本的数据集)上,我们的表现比最先进的结果高出 6.6%,我们的实时模型在 27 FPS 下实现了相当的性能(74.3%)。此外,提出的 PSENet 在多方向和多语言文本数据集上也
2024-12-20 16:36:13
794
原创 【读点论文】MNN: A UNIVERSAL AND EFFICIENT INFERENCE ENGINE将模型适配到各种终端硬件的解决方案,加速,量化,保精度
引入 Backend 抽象模块,将所有硬件平台(例如 GPU、CPU、TPU)和软件解决方案(例如 OpenCL、OpenGL、Vulkan)封装到统一的 Backend 类中。通过 Backend 类,资源管理、内存分配和调度与具体的算子实现分离开来。Backend 类由几个抽象函数组成,如图 5 所示。对于内存管理,onAcquireBuffer 负责为 tensor 分配新的内存,onReleaseBuffer 负责释放 tensor。对于算子实现,onCreate 负责为每个算子创建执行实例。
2024-12-13 14:57:40
1166
原创 【读点论文】CentripetalText: An Efficient Text Instance Representation STD破除标注唯一论,添加松弛区域增强模型泛化性能。像素聚类各形态文本
提出了一种名为 CentripetalText (CT) 的高效文本实例表示,**它将文本实例分解为文本核和向心偏移的组合。具体来说,我们利用向心偏移来实现像素聚合,将外部文本像素引导到内部文本核**。松弛操作被集成到向心偏移的密集回归中,允许在范围内而不是特定值中进行正确的预测。 **我们的方法中文本轮廓的便捷重建和对预测误差的容忍分别保证了高检测精度和快速推理速度。此外,我们将文本检测器缩减为一个提案生成模块,即向心文本提案网络(CPN),取代 Mask TextSpotter v3 中的分割提案网络(
2024-12-05 15:01:02
900
2021-2022年的高精度模型,swin transformer.convnext等
2023-02-04
轻量化混合(卷积和transformer)网络,发论文的热点
2023-02-03
mobilenet系列V1-V3
2022-06-05
图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。
2022-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人