论文笔记
文章平均质量分 95
羞儿
和我一起学习吧,有问题请积极讨论。费曼学习法,论证,整合,再论证,再整合。
展开
-
【读点论文】torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies
这些可以在实验开始时加载 PyYAML 配置文件时简单地完成,并使配置文件更加不言自明,因为初始版本使用的配置格式没有明确告诉用户实验是否需要特定的本地包。这些功能还帮助我们概括了定义关键模块(例如数据集及其组件(例如预处理转换、采样器))的方法。下图展示了使用初始版本和本工作中的 torchdistill 构建图像/张量变换序列的示例。原创 2024-07-18 19:48:13 · 614 阅读 · 0 评论 -
【读点论文】torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation,文件配置完成知识蒸馏
我们框架中模块抽象的一个目标是让研究人员只需更改第 2.3 节中描述的 PyYAML 配置文件即可试验各种模块。我们将抽象重点放在要进行实验的关键模块上,特别是模型架构、数据集、转换和训练期间要最小化的损失。这些模块通常在作者发布的框架 中是硬编码的(参见附录 A),许多超参数也是硬编码的。模型架构:torchvision 为视觉任务提供了各种模型系列,从 AlexNet 到 R-CNN ,其中许多模型都是在大型基准数据集上进行预训练的。原创 2024-07-17 18:34:39 · 1002 阅读 · 0 评论 -
【读点论文】Low-Light Image Enhancement Using Gamma Correction Prior in Mixed Color Spaces,对低光恢复细节高效预处理
ASM 是一种物理图像退化模型,广泛应用于计算机视觉和图像处理,尤其是在图像去雾框架中。ASM 可以通过反转低光图像应用于 LIE。该框架需要精确的传输图估计。在我们之前的工作 [Low-light image enhancement using inverted image normalized by atmospheric light] 中,传输是以色调、饱和度和值 (HSV) 颜色空间中单个未知饱和度分量的闭式形式推导出来的。对于选定的饱和拉伸函数,提出了一种图像饱和拉伸函数的自适应形状。高光照欠佳原创 2024-07-16 15:29:06 · 626 阅读 · 0 评论 -
【读点论文】Group-Mix SAM: Lightweight Solution for Industrial Assembly Line Applications,MobileSAM做教师模型
本文针对MobileSAM因边缘计算机计算能力不足、内存占用过多而无法部署在流水线上的问题,提出了用更小的图像编码器结构Groupmixformer取代MobileSAM编码器中原有的ViT-T结构,取得了很好的效果,将得到的模型命名为Group-Mix SAM。在实际的流水线中,负责运行算法的是边缘计算机,这些边缘计算机的购买通常受限于价格,存在内存不足、计算能力弱等问题。因此,为了在实际的流水线场景中部署使用,我们需要将重量级的图像编码器替换为轻量级的图像编码器,以减小 SAM 的大小。原创 2024-07-13 16:28:16 · 805 阅读 · 0 评论 -
【读点论文】EFFICIENT MODULATION FOR VISION NETWORKS,构建了一个高效的特征调制块,配套做了很多的实验,探讨了一些推理速度与模型设计及平台配置的关系
提出了高效调制 (EfficientMod),这是一种统一的基于卷积的构建块,它结合了卷积和注意机制的有利特性。EfficientMod 同时提取空间上下文并投射输入特征,然后使用简单的元素乘法将它们融合在一起。EfficientMod 的优雅设计满足了效率要求,而固有的设计理念则保证了出色的表示能力。借助 EfficientMod,我们构建了一系列高效模型。大量实验检验了我们方法的效率和有效性。EfficientMod 在经验结果和实际延迟方面都优于以前的 SOTA 方法。当应用于密集预测任务时也不错原创 2024-07-11 16:52:19 · 800 阅读 · 0 评论 -
【读点论文】ASAM: Boosting Segment Anything Model with Adversarial Tuning,对抗学习提升性能
基础模型的概念在推动自然语言处理 (NLP) 领域以及最近的计算机视觉领域中发挥了关键作用。这些模型起源于 NLP,具有影响力的模型包括 BERT 、GPT 系列 、LLaMA 和 PaLM ,它们展示了对未见过的任务的出色零样本泛化能力。这一成功刺激了计算机视觉领域类似范式转换模型的发展。 这些视觉基础模型,例如 DINOv2 、CLIP 、BLIP 、SAM 和 Stable Diffusion ,展示了出色的零样本能力和跨各种任务的广泛泛化能力。其中,Segment Anything Model原创 2024-07-10 19:39:50 · 918 阅读 · 0 评论 -
【读点论文】All-In-One Image Restoration for Unknown Corruption用对比学习统一方法实现多种噪声图片的有效处理
单幅图像复原旨在从给定的劣化对应关系(例如嘈杂、下雨或朦胧的图像)中生成视觉上令人愉悦的高质量图像。在过去的几年中,图像复原已广泛应用于从自动驾驶到医学成像和监控等许多现实世界应用中。尽管在去噪、去模糊、去雨和去雾等特定领域已经取得了有希望的成果,但图像恢复在实践中遇到了以下障碍。一方面,有必要了解正确的损坏(即退化)以选择有竞争力的模型,因为几乎所有现有方法都只能处理特定的退化。一旦退化类型甚至损坏率发生变化,由于实际情况与模型构建或训练所采用的先验不一致,模型将获得不理想的性能。另一方面,退化通常会在复原创 2024-07-09 10:26:23 · 1113 阅读 · 0 评论 -
【读点论文】Details preserved brightness equalization algorithm for non-uniform illumination images
将本文算法与几种近几年光照不均图像增强方法进行比较,如 Kong等提出的基于增强子的非均匀图像增强算法(EBCE)、王殿伟等提出的基于改进二维伽马函数自适应亮度校正算法(ACA)、Wang 等提出的自然度保持的非均匀照明图像增强方法(NPEA),其结果显示于图 4~图 11 中。NPEA 算法对于保持图像自然度和细节占有优势,但其对光照的双对数变换处理使其对于弱光照区域的细节增强处于劣势,如图 4(d)中拱门内白色电线轨迹较不明显,图 9(d)、图11(d)中墙体产生伪边缘。增强度越高,则增强效果越明显。原创 2024-07-08 17:55:11 · 663 阅读 · 0 评论 -
【读点论文】基于二维伽马函数的光照不均匀图像自适应校正算法
摘 要:提出了一种基于二维伽马函数的光照不均匀图像自适应校正算法.利用多尺度高斯函数提取出场景的光照分量,然后.通过与经典算法对比表明,本文算法可以更好地降低光照不均匀对图像的影响,提高图像的质量.原创 2024-07-05 18:00:22 · 619 阅读 · 0 评论 -
【读点论文】Gray level thresholding in badly illuminated image,光照不均匀的二值化
大多数灰度阈值化方法在原始栅格图像中光照梯度规律且不大的情况下能够产生非常好的结果。在其他情况下,比如光照变化幅度较大时,就无法生成令人满意的二值图像。一种方法是首先定位目标像素,。可以有很高的把握地认为,。Local Intensity Gradient (LIG) 是一种基于局部图像属性分析的方法,主要用于图像处理和计算机视觉领域,尤其是在边缘检测、特征提取和图像分割等任务中。:图像中的每一个像素点都有一个灰度值,灰度梯度描述的是相邻像素间灰度值的变化率。原创 2024-07-02 13:27:52 · 1069 阅读 · 1 评论 -
【读点论文】RobustSAM: Segment Anything Robustly on Degraded Images,提出了预处理退化模块,整合了一个退化图像数据集
精心策划的 Robust-Seg 数据集旨在训练和评估 RobustSAM 模型,它包含一个丰富的存储库,其中包含 43,000 张图像和相应的带注释的蒙版。此外,我们扩展了实验范围,使用降级清晰图像对对 SwinIR、MW-Net 和 Air-Net 进行微调,然后应用 SAM(称为 SwinIR-F、MW-Net-F 和 Air-Net-F)。在可见数据集上的比较。“降级”是指经过 15 种不同类型的降级的图像集,“清晰”是指原始的、未降级的图像,“平均”表示“降级”和“清晰”场景的加权和平均值。原创 2024-06-28 13:42:27 · 908 阅读 · 0 评论 -
【读点论文】SqueezeSAM: User-Friendly Mobile Interactive Segmentation,运用显著性特征分割,目的在于移动设备的编辑(iPhone人物抠图)
精度和速度均超越FastSAM、MobileSAM!SqueezeSAM比SAM快50倍,小100倍!可以部署到任何移动设备,适用于常见的照片编辑应用,其中引入显著性目标检测,可自动创建初始分割,简化了编辑流程。单位:Meta(EfficientSAM作者团队)Segment Anything Model(SAM)是交互式分割的基础模型,它促进了生成人工智能、计算摄影和医学成像的重大进展。该模型接受任意用户输入,并提供相应对象的分割掩码。本文的目标是开发一个适合在摄影应用中使用的SAM版本。原创 2024-06-23 11:26:56 · 856 阅读 · 0 评论 -
【读点论文】Segment Anything Model is a Good Teacher for Local Feature Learning通过SAM大模型学习局部特征匹配
局部特征检测和描述是计算机视觉的一项基本任务,广泛用于图像匹配、运动结构(SfM)、同时定位和映射(SLAM)、视觉定位和图像检索任务。基于SIFT和ORB的手工启发式等传统方案无法应对剧烈的照明和视点变化。在深度学习的浪潮下,数据驱动的局部特征学习方法最近取得了优异的性能。这些方法需要基于图像对之间完全准确和密集的 GT 对应来训练局部描述符,忽略人类用来描述图像像素的语义信息。一个简单的想法是使用传统的语义分割模型来促进关键点的检测和描述。然而,这在实践中是不可行的,因为它们只能识别有限数量的粗粒度对象原创 2024-05-17 09:16:51 · 768 阅读 · 1 评论 -
【读点论文】TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models,基于输出,特征,关系蒸馏的探索实践,将大模型的知识迁到终端
现代深度学习应用基于繁琐的神经网络,具有容量大、内存占用多、推理延迟慢等特点。将这些模型部署到生产中是一项巨大的挑战。知识蒸馏是一种优雅的机制,可以训练出更小、更轻、更快、更便宜的学生模型,而学生模型则来自于庞大、复杂的教师模型。在 Hinton 及其同事(2015 年)将知识蒸馏概念化之后,采用知识蒸馏方案为生产用例获取高效、轻量级模型的情况大量增加。知识蒸馏是一种复杂的技术,基于不同类型的知识、训练方案、架构和算法。知识提炼已在计算机视觉、自然语言处理、语音等多个领域取得了巨大成功。原创 2024-05-14 10:36:42 · 337 阅读 · 0 评论 -
【读点论文】GhostNetV3: Exploring the Training Strategies for Compact Models,感觉是调参作品,知识蒸馏,学习率调整,EMA,重参数...
目前最先进的模型MobileFormer实现了79.3%的前1级精度,延迟为129.58ms,这在现实世界的应用中是负担不起的。接下来,我们将GhostNetV3与其他基于CNN的紧凑型模型进行比较,包括MobileNets、ShuffleNets、MixNet、MNASNet、FBNet、EfficientNet和MobileOne,其中FBNet、MNASNet和MobileNetV3是基于搜索的模型,其他是手动设计的模型。因此,KD 采用更大的模型作为教师来指导紧凑模型的学习,是提高性能的合适方法。原创 2024-05-08 20:17:39 · 630 阅读 · 0 评论 -
【读点论文】SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL,改进自注意力机制,然后知识蒸馏提点
值得注意的是,图像编码器是SAM中参数密集度最高的部分,占其处理时间的98.3%,这突出了优化的必要性。重要的是,下表显示,SAM Lightening在推理延迟和峰值内存使用方面优于所有同类产品,与普通SAM相比实现了30.1倍的加速,峰值内存减少了96.5%,与最先进的相比实现了2.1倍的加速。从头开始训练SAM Lightening是昂贵的,而层适应是具有挑战性的,因为以ViT-H作为特征编码器的SAM和SAM Lighteniing之间的独特结构。基于mIOU的COCO和LVIS分割性能比较。原创 2024-05-08 11:17:29 · 1038 阅读 · 0 评论 -
【读点论文】MobileNetV4 - Universal Models for the Mobile Ecosystem,用屋顶线探索硬件极限,提升计算效率和精度平衡点
具体而言,MNv4-Conv-M模型比MobileOne-S4和FastViT-S12都快50%以上,同时在相当的延迟下,也比MobileNet V2将Top-1的准确性提高了1.5%。值得注意的是,我们使用现代训练配方增强了MobileNet系列(V1、V2、V3),从而大幅提高了准确性:MobileNet V1的准确率提高了3.4%,达到74.0%,V2的准确率增加了1.4%,达到73.4%,V3的准确率增加了0.3%,达到75.5%。FC层和DW-Conv2D在低RP下是便宜的,在高RP下是昂贵的。原创 2024-05-07 10:41:56 · 1137 阅读 · 0 评论 -
【读点论文】EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM,知识蒸馏,更适合部署的轻量卷积网络作为主干
然而,正如我们在第3.2.3节中所讨论的,对于不明确的提示,例如单个点,原始SAM并不总是以所需的粒度产生掩码。各拟议组成部分的有效性。此外,它在不准确分割的区域动态生成新提示的策略将更多的注意力放在这些区域上,在这个过程中创建了不同的提示组合。这种方法旨在实现三个关键目标:(1)从最初的提示(无论是方框还是点)动态生成一组不同的提示组合,(2)准确识别mask 内学生模型显示不准确的区域,从而将其注意力集中在这些特定的部分,以及(3)迫使教师模型,即SAM,生产高质量的mask,以获得更精确的指导。原创 2024-04-22 11:19:54 · 862 阅读 · 0 评论 -
【读点论文】TinySAM: Pushing the Envelope for Efficient Segment Anything Model,先蒸馏然后量化,配合分层采样点网格加速every模式
分割一切模型(Segment Anything Model,SAM)展现出了强大的分割万物能力,但是网络结构复杂,计算代价高,在资源受限的端侧应用中无法直接使用。同时,我们发现在SAM的Everything推理模式中,原始的网格点prompt的方式会带来巨大的计算代价。针对这个问题,我们提出了TinySAM模型,利用知识蒸馏、量化等手段对模型做了极致的压缩,同时提出了再Everything推理模式下的层次化推理策略。TinySAM在计算代价降低多个数量级的情况下,仍然保持了SAM模型强大的zero-shot原创 2024-04-20 11:16:55 · 721 阅读 · 0 评论 -
【读点论文】EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything,知识蒸馏,对齐图像编码器特征
我们提出了一种称为SAMI的利用SAM的掩蔽图像预训练框架,该框架训练模型以从SAM ViT-H图像编码器重建特征。结果表明,这可以显著提高图像掩蔽预训练方法的性能。我们证明了SAMI预训练的主干可以很好地推广到许多任务,包括图像分类、对象检测和语义分割。我们提供EfficientSAMs,轻量级SAM模型,具有最先进的质量-效率权衡(下图),这是对实际部署SAM的补充。将发布代码和模型,以使一系列高效SAM应用程序受益。对比分析结果。(顶部)EfficientSAM模型概述,以经过良好预训练的轻量级图像编原创 2024-04-19 10:17:33 · 958 阅读 · 0 评论 -
【读点论文】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information,实践才出真知
今天的深度学习方法侧重于如何设计最合适的目标函数,使模型的预测结果最接近实际情况。同时,必须设计一种适当的架构,该架构可以促进获取足够的信息用于预测。。本文将深入研究数据通过深度网络传输时数据丢失的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。。此外,还设计了一种新的基于梯度路径规划的轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上取得了卓越的成果。原创 2024-04-17 10:50:13 · 767 阅读 · 0 评论 -
【读点论文】YOLOX: Exceeding YOLO Series in 2021,无锚框单阶段目标检测方案,解耦检测头的分类和回归分支,优化标签分配策略
然而,我们发现,合适的增强策略因不同尺寸的模型而异。无锚机制显著减少了需要启发式调整的设计参数的数量和所涉及的许多技巧(例如,锚聚类,网格敏感),以获得良好的性能,使检测器,特别是其训练和解码阶段,变得相当简单。每个gt 的大小、尺度和遮挡条件不同,所以其提供的positive label数量也应该是不同的,如何确定每个gt的正样本数 k 值呢,论文提供了一个简单的方案,该方法称之为:Dynamic k Estimation,具体做法如下:从前面的pair_wise_ious中,给每个目标框,挑选。原创 2024-04-16 20:05:57 · 1533 阅读 · 0 评论 -
【读点论文】MobileSAMv2: Faster Segment Anything to Everything,改变prompt的密度,降低掩码解码器的冗余网格搜索
不同的任务可能需要不同的网格密度。SegAny的计算瓶颈在于其图像编码器,而SegEvery的计算瓶颈主要在于其在需要高网格搜索密度时的掩码解码器([sam]中的零样本对象建议采用64×64点)。SegEvery和我们提出的采样策略需要运行对象发现算法来获得对象感知提示,这需要比[sam]中的默认网格搜索采样更多的提示采样时间,但需要编码更少的提示。下表中的结果表明,通过上述两种做法中的任何一种产生更少的掩码都会导致性能下降,这表明默认的网格搜索采样策略高度依赖于产生冗余掩码来选择最终需要的掩码。原创 2024-04-13 19:07:03 · 888 阅读 · 0 评论 -
【读点论文】FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS。先换为小图像编码器,一种解耦的知识蒸馏方法
值得强调的是,我们的MobileSAM比同期的FastSAM快约5倍,小约7倍,同时实现了卓越的性能。由于蒸馏的image encoder和原始的image encoder的结果非常相似,feautre的大小一致,这使得mask decoder的微调部分是可选的,鉴于SAM中的默认图像编码器基于ViT-H,获得MobileSAM的一个简单方法是遵循[Segment anything]中的官方管道,用较小的图像编码器重新训练新的SAM,比如用较小的ViT-L甚至更小的ViT-B替换ViT-H。原创 2024-04-13 11:13:15 · 1026 阅读 · 0 评论 -
【读点论文】Segment Anything,视觉界的GPT,可以通过Prompt完成图像实体理解的视觉基础大模型,处理零样本任务
SAM 主要由三个组件构成:图像编码器(ImageEncoder)、提示编码器(PromptEncoder)、和解码器(MaskDecoder)。图像编码器使用 MAE 进行预训练,整个 SAM 在拥有 11 亿标注的训练集 SA-1B 上进一步进行微调,训练时使用了 Focal loss 和 Dice loss 的组合。推理时,测试图片 x 首先由图像编码器进行编码,然后给定提示 Prompt,轻量级的解码器将进行三个级别的预测。SAM是一个提示型模型,其在1100万张图像上训练了超过10亿个掩码原创 2024-04-12 11:00:12 · 1192 阅读 · 0 评论 -
【读点论文】LORE Logical Location Regression Network for Table Structure Recognition从单元格中心位置,推理角点定位,输出逻辑坐标
表格格式的数据普遍存在于各种类型的文档中,用于汇总和显示信息。随着世界走向数字化,对非结构化数据(如图像和PDF文件)中的表进行解析的需求正在迅速增长。虽然对人类来说很简单,但由于表格的布局和样式的多样性,它对自动化系统来说是具有挑战性的。表结构识别(TSR)是指将图像中的表转换为机器可理解的格式,通常是逻辑坐标或标记序列。提取的表结构对于信息检索、表到文本生成和问答系统等都是至关重要的。随着深度学习的发展,TSR方法近年来取得了长足的进步。大多数基于深度学习的TSR方法可以分为以下几种范式。第一类模型旨在原创 2024-03-09 16:50:29 · 1291 阅读 · 0 评论 -
【读点论文】SLOGAN Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text,用gan批量定制笔迹
识别不同个人笔迹风格的文本是一项挑战,因为(a)不同人写的一个单词(例如,“the”)的笔迹风格可能有很大的不同,(b)同一个人每次书写时,单词的风格都会发生明显的变化。为了进一步说明手写风格分布,我们提供了流行的 IAM 训练集中的风格,通过我们提出的方法进行参数化,其中风格向量维数设置为 3 以便可视化。通过我们生成的各种样式,分布更加均匀合理,说明样式的偏差得到了明显的纠正。放大以获得更好的视野。同时,在单词级图像上训练的生成器能够合成任意长度的句子,只需要改变输入的打印样式图像中的句子字符串。原创 2024-02-28 21:32:52 · 1016 阅读 · 1 评论 -
【读点论文】Revisiting Scene Text Recognition A Data Perspective,整理了一个大的数据集,从数据统计角度看发展和挑战。对比13个模型在英文场景下表现
对于一般子集,我们从五个难度级别中平均抽取20%的图像,形成400,000张图像的一般子集。通过这样的均匀采样,一般子集中的图像分布更加均匀,更具代表性。由于抽样是随机的,一般子集可能有一些注释错误和人类无法识别的样本,就像六个常见基准测试一样。原创 2024-02-27 17:33:30 · 1081 阅读 · 0 评论 -
【读点论文】Orientation-Independent Chinese Text Recognition in Scene Images,竖向文本检测,中文场景中常见的案例
在接下来的实验中,我们的方法是在[Benchmarking chinese text recognition: Datasets, baselines, and an empirical study]中场景数据集的训练集上进行训练的。在训练阶段,我们在场景数据集的验证集上评估我们的方法的性能,并保留最优模型在测试集上进行测试。,表明了我们的方法在解决中文文本识别问题上的有效性。如上所述,我们观察到提取的视觉特征不仅包含内容信息,这决定了字符的预测,还包含方向信息,这对最终的预测是无用的。原创 2024-02-26 22:36:56 · 840 阅读 · 3 评论 -
【读点论文】EXPLORING OCR CAPABILITIES OF GPT-4V(ISION),虽然比不上专用模型,但也有一定的识别能力,对OCR下游任务有一定支持
如下图所示,(a)和©是来自CROHME2014的示例,(b)和(d)是来自HEM100K的示例,GPT-4V在前者上表现良好,而在后者上表现较差。为了评估GPT-4V在表结构识别中的性能,我们使用了TEDS- s指标,这是基于树编辑距离的相似性(TEDS)的一种变体,它不考虑单元格的文本内容,只评估表结构预测的准确性。”端到端文本识别的提示是:“图像中的所有场景文本是什么?为了评估GPT-4V在手写文本识别方面的能力,我们使用了两个常用的手写数据集:IAM](英文)和CASIA-HWDB(中文)。原创 2024-02-26 20:47:01 · 1195 阅读 · 2 评论 -
【读点论文】Scene Text Recognition with Permuted Autoregressive Sequence Models,引入语言模型纠正字符串识别结果
机器在自然场景中读取文本,首先检测文本区域,然后识别这些区域中的文本。从裁剪区域中识别文本的任务称为场景文本识别(STR)。STR可以读取道路标志,广告牌,纸质账单,产品标签,徽标,印刷衬衫等。它在自动驾驶汽车、增强现实、零售、教育和视障人士设备等领域都有实际应用。与文本属性更加统一的文档中的光学字符识别(OCR)相比,STR必须处理不同的字体样式、方向、文本形状、照明、遮挡量和不一致的传感器条件。在自然环境中拍摄的图像也可能有噪声、模糊或扭曲。实质上,STR是一个重要但非常具有挑战性的问题。STR主要是一原创 2024-02-25 22:13:10 · 1234 阅读 · 1 评论 -
【读点论文】Open-Set Text Recognition via Character-Context Decoupling
在配备 RTX 2070 移动 GPU(7 TFlops)的笔记本电脑上,我们的方法可以达到 67 FPS 的单批处理速度和 255 FPS 的多批处理速度,而仅使用 2.5 GiB Vram。开放集文本识别任务的结果示例。在评估过程中,由于字典和字符频率都是未知的,因此假定字符频率是统一的,这样对于所有长度为 l 的词来说,β(y) 都是一个常数。我们首先将我们的方法与其他开放集文本识别方法进行了比较,这些方法在下表 中报告了它们在基于词库的基准测试中的表现,同时还与一些流行的封闭集识别方法进行了比较。原创 2024-02-18 16:30:42 · 907 阅读 · 0 评论 -
【读点论文】Real-time Scene Text Detection with Differentiable Binarization,可微分二值化助力文字检测
标签生成。文本多边形的标注用红线表示。收缩多边形和扩张多边形分别用蓝线和绿线表示。label主要是两部分,probability map和threshold map;binary map和probability map共用一个ground truth。probability map:参考了PSENet的label方式。并不是简单将标注的文本域置为1,而是将文本域的"shrink"置为 1,相当于一个小的"kernel",和PSENet一样,这样可以有效避免多行文本被检测成一行。原创 2024-02-18 16:05:31 · 642 阅读 · 0 评论 -
【读点论文】Read Like Humans Autonomous, Bidirectional and Iterative Language for Scene Text Recognition
通常来说,无论是裁剪图像的文字识别还是端到端图像的文字识别,主要思想都是把文字识别问题当成CV中的(字符)图像分类问题,比如说传统特征时代检测并分割字符后识别的方法、到CNN共享计算的识别方法、到语义分割识别、甚至到现在主流的CTC方法,其本质上都是基于图像分类的纯CV方法。例如,预训练 LM 可能是提高性能的有效方法。其中,一个核心的点为视觉模型的输出概率向量到语言模型的输入概率向量,通过梯度阻塞的方式使得视觉模型跟语言模型进行分离,进而实现两个模型作为独立的功能个体进行学习,即实现显性地语言建模型。原创 2024-02-02 21:53:38 · 960 阅读 · 0 评论 -
【读点论文】A Survey of Deep Learning Approaches for OCR and Document Understanding
想要提高 OCR 准确性,需要采用持续学习的方法,定期更新模型以适应新的字体、语言和样式,同时考虑用户的反馈,不断改进 OCR 系统,逐步提升其性能,以更准确地将图像中的文本转化为可编辑的电子文本。重要的是,对训练数据的这种变化是平衡的,以便在保留原始语义内容的同时,仍然使模型训练暴露于现实的错误,这些错误必须在对看不见的数据进行推理时加以考虑。在只有一个小数据集可用于训练整个OCR模块的情况下,但是大量的文本识别数据很容易访问,在识别模型的训练中利用这些大量的数据是有意义的。OCR 技术的目标是。原创 2024-02-01 23:25:38 · 800 阅读 · 0 评论 -
【读点论文】SPTS v2:Single-Point Scene Text Spotting,通过改变标注方式获得更好的模型泛化能力,相比于SPTS提高了模型训练合推理速度
近年来,情景文本阅读技术取得了长足的进步。给定图像,文本定位器可以同时定位和识别文本内容,从而实现许多现实世界的应用,如文档数字化、智能助手和自动驾驶仪。基本上,矩形、四边形和多边形等边界框通常用于表示不同形状的文本。然而,人类可以直观地阅读没有这样一个定义区域的文本,这一事实鼓励了无边界框文本识别器的发展,解除了边界框注释所施加的限制。如下图所示,前面的方法使用由一系列坐标组成的边界框来定义实例级文本,其中封闭的区域被认为是一个正样本。由于其简单和直接性,边界框已成为许多其他视觉任务的首选注释格式。然而,原创 2024-01-31 14:23:16 · 1187 阅读 · 0 评论 -
【读点论文】SPTS Single-Point Text Spotting
值得注意的是,我们在这里使用相应的ground-truth来计算距离矩阵来评估性能,即左上角使用到ground-truth左上角点的距离,中央使用到ground-truth中心点的距离,随机使用到ground-truth多边形的最近距离。为了探索所提出的评估协议是否能够真实地代表模型的精度,下表比较了ABCNetv1和ABCNetv2在Total-Text和SCUT-CTW1500上的端到端识别精度,即常用的基于IoU的边界框度量和所提出的基于点的度量。我们的方法对所有三个词汇都实现了最先进的结果。原创 2024-01-30 23:11:51 · 1048 阅读 · 0 评论 -
【读点论文】CMTCo Contrastive Learning with Character Movement Task对比学习中的代理任务和数据增强用在手写字符体识别方向
如图(a)第一幅图所示,红线为垂直投影分布,表示字符像素在对应列位置的投影累计值。根据Sta,我们可以定位文字在文字图像中的大致位置。角色移动任务(CMT)的过程说明。然而,作家通常在单词的不同字符之间使用连续的笔画。因此,为了近似消除笔划粘附的干扰,我们将Sta中小于t的个数设为零,其中t取Sta中第二小的值。如图(a)第二幅图所示,蓝线表示t的值,将蓝线以下的位置设为零,得到图(a)第三幅图。原创 2024-01-27 23:31:11 · 959 阅读 · 0 评论 -
【读点论文】Benchmarking chinese text recognition Datasets, baselines, and an empirical study,中文专题的字符识别
我们观察到,CRNN在每个数据集上的性能都优于那些基于注意力的普通识别器(即MORAN , SEED和SAR),后者在遇到较长中文文本的文本图像时容易出现注意力漂移问题(drift problem)。我们从训练集中提取了140589张文本图像,并按8:1:1的比例进行手动分割,得到112471张样本用于训练,14059张样本用于验证,14059张样本用于测试。我们随机对这些样本进行洗牌,并按8:1:1的比例进行分割,得到509,164个样本用于训练,63,645个样本用于验证,63,646个样本用于测试。原创 2024-01-21 23:10:39 · 1061 阅读 · 0 评论 -
【读点论文】PageNet Towards End2End Weakly Supervised Page-Level Handwritten Chinese Text Recognition
手写体中文文本识别(HCTR)已经研究了几十年。然而,以往的大多数研究假设文本行检测是由标注提供的,并且只关注裁剪的文本行图像的识别。虽然这些行级方法与语言模型相结合时的精度似乎是足够的,但它们仅限于字符的一维分布,并且在实际应用中受到文本行检测精度的显著影响。因此,页级手写体文本识别具有重要的工业价值,近年来引起了人们极大的研究兴趣。一类页面级方法从整个页面中分割文本区域并识别文本区域,而其他区域利用连接主义时间分类(CTC) 或注意机制结合多维长短期记忆,以无分割或隐式分割的方式解决页面级文本识别问题。原创 2024-01-20 20:04:37 · 915 阅读 · 0 评论