羞儿-CSDN博客

原创【读点论文】Segment Anything Model is a Good Teacher for Local Feature Learning通过SAM大模型学习局部特征匹配

局部特征检测和描述是计算机视觉的一项基本任务，广泛用于图像匹配、运动结构（SfM）、同时定位和映射（SLAM）、视觉定位和图像检索任务。基于SIFT和ORB的手工启发式等传统方案无法应对剧烈的照明和视点变化。在深度学习的浪潮下，数据驱动的局部特征学习方法最近取得了优异的性能。这些方法需要基于图像对之间完全准确和密集的 GT 对应来训练局部描述符，忽略人类用来描述图像像素的语义信息。一个简单的想法是使用传统的语义分割模型来促进关键点的检测和描述。然而，这在实践中是不可行的，因为它们只能识别有限数量的粗粒度对象

2024-05-17 09:16:51 718 1

原创【读点论文】TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models，基于输出，特征，关系蒸馏的探索实践，将大模型的知识迁到终端

现代深度学习应用基于繁琐的神经网络，具有容量大、内存占用多、推理延迟慢等特点。将这些模型部署到生产中是一项巨大的挑战。知识蒸馏是一种优雅的机制，可以训练出更小、更轻、更快、更便宜的学生模型，而学生模型则来自于庞大、复杂的教师模型。在 Hinton 及其同事（2015 年）将知识蒸馏概念化之后，采用知识蒸馏方案为生产用例获取高效、轻量级模型的情况大量增加。知识蒸馏是一种复杂的技术，基于不同类型的知识、训练方案、架构和算法。知识提炼已在计算机视觉、自然语言处理、语音等多个领域取得了巨大成功。

2024-05-14 10:36:42 290

原创知识蒸馏，需要合适的教师模型，学生模型，蒸馏数据，损失函数，训练策略，让小模型有大模型的知识

知识蒸馏是一种将知识从一个神经网络（教师）转移到另一个神经网络（学生）的技术，如需更深入地了解知识蒸馏，建议阅读[。这一过程有多种形式，可分为以下几类响应知识蒸馏：使用 divergence 损失（即使用 KL 散度）训练输出类概率分布，使其与教师概率分布相匹配。特征知识蒸馏：训练学生模型的内部特征，使其与教师模型的内部特征直接匹配（即：使用均方误差）。关系知识蒸馏：训练教师模型中特征的相对分布，使之与学生模型中特征的相对分布相匹配。

2024-05-10 18:47:13 571

原创【读点论文】GhostNetV3: Exploring the Training Strategies for Compact Models，感觉是调参作品，知识蒸馏，学习率调整，EMA,重参数...

目前最先进的模型MobileFormer实现了79.3%的前1级精度，延迟为129.58ms，这在现实世界的应用中是负担不起的。接下来，我们将GhostNetV3与其他基于CNN的紧凑型模型进行比较，包括MobileNets、ShuffleNets、MixNet、MNASNet、FBNet、EfficientNet和MobileOne，其中FBNet、MNASNet和MobileNetV3是基于搜索的模型，其他是手动设计的模型。因此，KD 采用更大的模型作为教师来指导紧凑模型的学习，是提高性能的合适方法。

2024-05-08 20:17:39 551

原创【读点论文】SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL，改进自注意力机制，然后知识蒸馏提点

值得注意的是，图像编码器是SAM中参数密集度最高的部分，占其处理时间的98.3%，这突出了优化的必要性。重要的是，下表显示，SAM Lightening在推理延迟和峰值内存使用方面优于所有同类产品，与普通SAM相比实现了30.1倍的加速，峰值内存减少了96.5%，与最先进的相比实现了2.1倍的加速。从头开始训练SAM Lightening是昂贵的，而层适应是具有挑战性的，因为以ViT-H作为特征编码器的SAM和SAM Lighteniing之间的独特结构。基于mIOU的COCO和LVIS分割性能比较。

2024-05-08 11:17:29 895

原创【读点论文】MobileNetV4 - Universal Models for the Mobile Ecosystem，用屋顶线探索硬件极限，提升计算效率和精度平衡点

具体而言，MNv4-Conv-M模型比MobileOne-S4和FastViT-S12都快50%以上，同时在相当的延迟下，也比MobileNet V2将Top-1的准确性提高了1.5%。值得注意的是，我们使用现代训练配方增强了MobileNet系列（V1、V2、V3），从而大幅提高了准确性：MobileNet V1的准确率提高了3.4%，达到74.0%，V2的准确率增加了1.4%，达到73.4%，V3的准确率增加了0.3%，达到75.5%。FC层和DW-Conv2D在低RP下是便宜的，在高RP下是昂贵的。

2024-05-07 10:41:56 741

原创【读点论文】EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM，知识蒸馏，更适合部署的轻量卷积网络作为主干

然而，正如我们在第3.2.3节中所讨论的，对于不明确的提示，例如单个点，原始SAM并不总是以所需的粒度产生掩码。各拟议组成部分的有效性。此外，它在不准确分割的区域动态生成新提示的策略将更多的注意力放在这些区域上，在这个过程中创建了不同的提示组合。这种方法旨在实现三个关键目标：（1）从最初的提示（无论是方框还是点）动态生成一组不同的提示组合，（2）准确识别mask 内学生模型显示不准确的区域，从而将其注意力集中在这些特定的部分，以及（3）迫使教师模型，即SAM，生产高质量的mask，以获得更精确的指导。

2024-04-22 11:19:54 738

原创【读点论文】TinySAM: Pushing the Envelope for Efficient Segment Anything Model，先蒸馏然后量化，配合分层采样点网格加速every模式

分割一切模型（Segment Anything Model，SAM）展现出了强大的分割万物能力，但是网络结构复杂，计算代价高，在资源受限的端侧应用中无法直接使用。同时，我们发现在SAM的Everything推理模式中，原始的网格点prompt的方式会带来巨大的计算代价。针对这个问题，我们提出了TinySAM模型，利用知识蒸馏、量化等手段对模型做了极致的压缩，同时提出了再Everything推理模式下的层次化推理策略。TinySAM在计算代价降低多个数量级的情况下，仍然保持了SAM模型强大的zero-shot

2024-04-20 11:16:55 680

原创【读点论文】EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything,知识蒸馏，对齐图像编码器特征

我们提出了一种称为SAMI的利用SAM的掩蔽图像预训练框架，该框架训练模型以从SAM ViT-H图像编码器重建特征。结果表明，这可以显著提高图像掩蔽预训练方法的性能。我们证明了SAMI预训练的主干可以很好地推广到许多任务，包括图像分类、对象检测和语义分割。我们提供EfficientSAMs，轻量级SAM模型，具有最先进的质量-效率权衡（下图），这是对实际部署SAM的补充。将发布代码和模型，以使一系列高效SAM应用程序受益。对比分析结果。（顶部）EfficientSAM模型概述，以经过良好预训练的轻量级图像编

2024-04-19 10:17:33 812

原创【读点论文】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information，实践才出真知

今天的深度学习方法侧重于如何设计最合适的目标函数，使模型的预测结果最接近实际情况。同时，必须设计一种适当的架构，该架构可以促进获取足够的信息用于预测。。本文将深入研究数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息（PGI）的概念，以应对深度网络实现多个目标所需的各种变化。。此外，还设计了一种新的基于梯度路径规划的轻量级网络架构——广义高效层聚合网络（GELAN）。GELAN的架构证实了PGI在轻量级模型上取得了卓越的成果。

2024-04-17 10:50:13 737

原创【读点论文】YOLOX: Exceeding YOLO Series in 2021，无锚框单阶段目标检测方案，解耦检测头的分类和回归分支，优化标签分配策略

然而，我们发现，合适的增强策略因不同尺寸的模型而异。无锚机制显著减少了需要启发式调整的设计参数的数量和所涉及的许多技巧（例如，锚聚类，网格敏感），以获得良好的性能，使检测器，特别是其训练和解码阶段，变得相当简单。每个gt 的大小、尺度和遮挡条件不同，所以其提供的positive label数量也应该是不同的，如何确定每个gt的正样本数 k 值呢，论文提供了一个简单的方案，该方法称之为：Dynamic k Estimation，具体做法如下：从前面的pair_wise_ious中，给每个目标框，挑选。

2024-04-16 20:05:57 1204

原创【读点论文】MobileSAMv2: Faster Segment Anything to Everything，改变prompt的密度,降低掩码解码器的冗余网格搜索

不同的任务可能需要不同的网格密度。SegAny的计算瓶颈在于其图像编码器，而SegEvery的计算瓶颈主要在于其在需要高网格搜索密度时的掩码解码器（[sam]中的零样本对象建议采用64×64点）。SegEvery和我们提出的采样策略需要运行对象发现算法来获得对象感知提示，这需要比[sam]中的默认网格搜索采样更多的提示采样时间，但需要编码更少的提示。下表中的结果表明，通过上述两种做法中的任何一种产生更少的掩码都会导致性能下降，这表明默认的网格搜索采样策略高度依赖于产生冗余掩码来选择最终需要的掩码。

2024-04-13 19:07:03 773

原创【读点论文】FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS。先换为小图像编码器，一种解耦的知识蒸馏方法

值得强调的是，我们的MobileSAM比同期的FastSAM快约5倍，小约7倍，同时实现了卓越的性能。由于蒸馏的image encoder和原始的image encoder的结果非常相似，feautre的大小一致，这使得mask decoder的微调部分是可选的，鉴于SAM中的默认图像编码器基于ViT-H，获得MobileSAM的一个简单方法是遵循[Segment anything]中的官方管道，用较小的图像编码器重新训练新的SAM，比如用较小的ViT-L甚至更小的ViT-B替换ViT-H。

2024-04-13 11:13:15 980

原创【读点论文】Segment Anything,视觉界的GPT，可以通过Prompt完成图像实体理解的视觉基础大模型，处理零样本任务

SAM 主要由三个组件构成：图像编码器（ImageEncoder）、提示编码器（PromptEncoder）、和解码器（MaskDecoder）。图像编码器使用 MAE 进行预训练，整个 SAM 在拥有 11 亿标注的训练集 SA-1B 上进一步进行微调，训练时使用了 Focal loss 和 Dice loss 的组合。推理时，测试图片 x 首先由图像编码器进行编码，然后给定提示 Prompt，轻量级的解码器将进行三个级别的预测。SAM是一个提示型模型，其在1100万张图像上训练了超过10亿个掩码

2024-04-12 11:00:12 1074

原创 C++内存管理(可能对面试有用)

如果程序需要的内存大于物理内存，或者内存中剩余的空间不足以容纳当前程序，那么操作系统会将内存中暂时用不到的一部分数据写入到磁盘，等需要的时候再读取回来，而我们的程序只管使用 4GB 的内存，不用关心硬件资源够不够。这是一个很大的值，不但物理内存不可能达到这么大，CPU的寻址能力也没有这么大，实现64位长的虚拟地址只会增加系统的复杂度和地址转换的成本，带不来任何好处，所以 Windows 和 Linux 都对虚拟地址进行了限制，仅使用虚拟地址的低48位（6个字节），总的虚拟地址空间大小为。

2024-04-09 10:19:07 1020

原创目标检测标签分配策略，难样本挖掘策略

但是作者采用了一种更加优雅的实现方式，其采用了一种可以直接插入当前anchor-base网络中进行anchor动态调整的做法，而不是替换掉原始网络结构，属于锦上添花，从此anchor-base就变成了anchor-base混合anchor-free了(取长补短)，这就是一个不错的进步。在选择难负样本时，需要遵循一定的原则。只看图示就很好理解了，对于任何一个类别的样本，本质上是希望学习的概率为1，当预测输出接近1时候，该样本loss权重是很低的，当预测的结果越接近0，该样本loss权重就越高。

2024-04-07 16:21:51 908 1

原创深度学习八股文

Bert旨在通过联合左侧和右侧的上下文，从未标记文本中预训练出一个深度双向表示模型。因此，BERT可以通过增加一个额外的输出层来进行微调，就可以达到为广泛的任务创建State-of-the-arts 模型的效果，比如QA、语言推理任务。Bert的构成：由12层Transformer Encoder构成。bert的基本任务：mask language model 和 next sentence predict，mask language model的遮盖⽅式：选择15%的token进⾏遮盖，再选择其中80%进

2024-04-01 11:21:03 3118 5

原创 pytorch模型转onnx格式，编写符号函数实现torch算子接口和onnx算子的映射，新建简单算子--模型部署记录整理

对于深度学习模型来说，模型部署指让训练好的模型在特定环境中运行的过程。相比于软件部署，模型部署会面临更多的难题：为了让模型最终能够部署到某一环境上，开发者们可以使用来定义网络结构，并。之后，模型的结构和参数会被转换成一种只描述网络结构的中间表示，一些针对网络结构的优化会在中间表示上进行。最后，用面向硬件的高性能编程框架(如 CUDA，OpenCL）编写，能高效执行深度学习网络中算子的推理引擎会。这一条流水线解决了模型部署中的两大问题：使用对接深度学习框架和推理引擎的中间表示，开发者不必担心如何在新环境中运行

2024-03-14 01:19:41 980

原创关于yolov8文档的记录，补充一些整理的知识点

所谓平滑锯齿操作就是在Recall轴上，对于每个阈值θ计算出的Recall点，看看它的右侧（包含它自己）谁的Precision最大，然后这个区间都使用这个Precision值，Precision和Recall之间的此消彼长的矛盾关系，既然一个模型的precision和recall是此消彼长的关系，不可能两个同时大，那怎么判断哪个模型更优呢？自蒸馏策略：为了提高 YOLOv6 较小模型的性能，我们采用了一种新的自蒸馏策略，在训练过程中增强辅助回归分支，在推理过程中去除辅助回归分支，以避免速度明显下降。

2024-03-11 23:25:53 813

原创【读点论文】LORE Logical Location Regression Network for Table Structure Recognition从单元格中心位置，推理角点定位，输出逻辑坐标

表格格式的数据普遍存在于各种类型的文档中，用于汇总和显示信息。随着世界走向数字化，对非结构化数据(如图像和PDF文件)中的表进行解析的需求正在迅速增长。虽然对人类来说很简单，但由于表格的布局和样式的多样性，它对自动化系统来说是具有挑战性的。表结构识别(TSR)是指将图像中的表转换为机器可理解的格式，通常是逻辑坐标或标记序列。提取的表结构对于信息检索、表到文本生成和问答系统等都是至关重要的。随着深度学习的发展，TSR方法近年来取得了长足的进步。大多数基于深度学习的TSR方法可以分为以下几种范式。第一类模型旨在

2024-03-09 16:50:29 1103

原创【读点论文】SLOGAN Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text，用gan批量定制笔迹

识别不同个人笔迹风格的文本是一项挑战，因为(a)不同人写的一个单词(例如，“the”)的笔迹风格可能有很大的不同，(b)同一个人每次书写时，单词的风格都会发生明显的变化。为了进一步说明手写风格分布，我们提供了流行的 IAM 训练集中的风格，通过我们提出的方法进行参数化，其中风格向量维数设置为 3 以便可视化。通过我们生成的各种样式，分布更加均匀合理，说明样式的偏差得到了明显的纠正。放大以获得更好的视野。同时，在单词级图像上训练的生成器能够合成任意长度的句子，只需要改变输入的打印样式图像中的句子字符串。

2024-02-28 21:32:52 1002 1

原创【读点论文】Revisiting Scene Text Recognition A Data Perspective，整理了一个大的数据集，从数据统计角度看发展和挑战。对比13个模型在英文场景下表现

对于一般子集，我们从五个难度级别中平均抽取20%的图像，形成400,000张图像的一般子集。通过这样的均匀采样，一般子集中的图像分布更加均匀，更具代表性。由于抽样是随机的，一般子集可能有一些注释错误和人类无法识别的样本，就像六个常见基准测试一样。

2024-02-27 17:33:30 1022

原创【读点论文】Orientation-Independent Chinese Text Recognition in Scene Images,竖向文本检测，中文场景中常见的案例

在接下来的实验中，我们的方法是在[Benchmarking chinese text recognition: Datasets, baselines, and an empirical study]中场景数据集的训练集上进行训练的。在训练阶段，我们在场景数据集的验证集上评估我们的方法的性能，并保留最优模型在测试集上进行测试。，表明了我们的方法在解决中文文本识别问题上的有效性。如上所述，我们观察到提取的视觉特征不仅包含内容信息，这决定了字符的预测，还包含方向信息，这对最终的预测是无用的。

2024-02-26 22:36:56 769 2

原创【读点论文】EXPLORING OCR CAPABILITIES OF GPT-4V(ISION)，虽然比不上专用模型，但也有一定的识别能力，对OCR下游任务有一定支持

如下图所示，(a)和©是来自CROHME2014的示例，(b)和(d)是来自HEM100K的示例，GPT-4V在前者上表现良好，而在后者上表现较差。为了评估GPT-4V在表结构识别中的性能，我们使用了TEDS- s指标，这是基于树编辑距离的相似性(TEDS)的一种变体，它不考虑单元格的文本内容，只评估表结构预测的准确性。”端到端文本识别的提示是:“图像中的所有场景文本是什么?为了评估GPT-4V在手写文本识别方面的能力，我们使用了两个常用的手写数据集:IAM](英文)和CASIA-HWDB(中文)。

2024-02-26 20:47:01 1101 2

原创【读点论文】Scene Text Recognition with Permuted Autoregressive Sequence Models，引入语言模型纠正字符串识别结果

机器在自然场景中读取文本，首先检测文本区域，然后识别这些区域中的文本。从裁剪区域中识别文本的任务称为场景文本识别(STR)。STR可以读取道路标志，广告牌，纸质账单，产品标签，徽标，印刷衬衫等。它在自动驾驶汽车、增强现实、零售、教育和视障人士设备等领域都有实际应用。与文本属性更加统一的文档中的光学字符识别(OCR)相比，STR必须处理不同的字体样式、方向、文本形状、照明、遮挡量和不一致的传感器条件。在自然环境中拍摄的图像也可能有噪声、模糊或扭曲。实质上，STR是一个重要但非常具有挑战性的问题。STR主要是一

2024-02-25 22:13:10 1091 1

原创【读点论文】Open-Set Text Recognition via Character-Context Decoupling

在配备 RTX 2070 移动 GPU（7 TFlops）的笔记本电脑上，我们的方法可以达到 67 FPS 的单批处理速度和 255 FPS 的多批处理速度，而仅使用 2.5 GiB Vram。开放集文本识别任务的结果示例。在评估过程中，由于字典和字符频率都是未知的，因此假定字符频率是统一的，这样对于所有长度为 l 的词来说，β(y) 都是一个常数。我们首先将我们的方法与其他开放集文本识别方法进行了比较，这些方法在下表中报告了它们在基于词库的基准测试中的表现，同时还与一些流行的封闭集识别方法进行了比较。

2024-02-18 16:30:42 874

原创【读点论文】Real-time Scene Text Detection with Differentiable Binarization，可微分二值化助力文字检测

标签生成。文本多边形的标注用红线表示。收缩多边形和扩张多边形分别用蓝线和绿线表示。label主要是两部分，probability map和threshold map；binary map和probability map共用一个ground truth。probability map：参考了PSENet的label方式。并不是简单将标注的文本域置为1，而是将文本域的"shrink"置为 1，相当于一个小的"kernel"，和PSENet一样，这样可以有效避免多行文本被检测成一行。

2024-02-18 16:05:31 593

原创【读点论文】Read Like Humans Autonomous, Bidirectional and Iterative Language for Scene Text Recognition

通常来说，无论是裁剪图像的文字识别还是端到端图像的文字识别，主要思想都是把文字识别问题当成CV中的（字符）图像分类问题，比如说传统特征时代检测并分割字符后识别的方法、到CNN共享计算的识别方法、到语义分割识别、甚至到现在主流的CTC方法，其本质上都是基于图像分类的纯CV方法。例如，预训练 LM 可能是提高性能的有效方法。其中，一个核心的点为视觉模型的输出概率向量到语言模型的输入概率向量，通过梯度阻塞的方式使得视觉模型跟语言模型进行分离，进而实现两个模型作为独立的功能个体进行学习，即实现显性地语言建模型。

2024-02-02 21:53:38 924

原创【读点论文】A Survey of Deep Learning Approaches for OCR and Document Understanding

想要提高 OCR 准确性，需要采用持续学习的方法，定期更新模型以适应新的字体、语言和样式，同时考虑用户的反馈，不断改进 OCR 系统，逐步提升其性能，以更准确地将图像中的文本转化为可编辑的电子文本。重要的是，对训练数据的这种变化是平衡的，以便在保留原始语义内容的同时，仍然使模型训练暴露于现实的错误，这些错误必须在对看不见的数据进行推理时加以考虑。在只有一个小数据集可用于训练整个OCR模块的情况下，但是大量的文本识别数据很容易访问，在识别模型的训练中利用这些大量的数据是有意义的。OCR 技术的目标是。

2024-02-01 23:25:38 789

原创【读点论文】SPTS v2:Single-Point Scene Text Spotting，通过改变标注方式获得更好的模型泛化能力，相比于SPTS提高了模型训练合推理速度

近年来，情景文本阅读技术取得了长足的进步。给定图像，文本定位器可以同时定位和识别文本内容，从而实现许多现实世界的应用，如文档数字化、智能助手和自动驾驶仪。基本上，矩形、四边形和多边形等边界框通常用于表示不同形状的文本。然而，人类可以直观地阅读没有这样一个定义区域的文本，这一事实鼓励了无边界框文本识别器的发展，解除了边界框注释所施加的限制。如下图所示，前面的方法使用由一系列坐标组成的边界框来定义实例级文本，其中封闭的区域被认为是一个正样本。由于其简单和直接性，边界框已成为许多其他视觉任务的首选注释格式。然而，

2024-01-31 14:23:16 1093

原创【读点论文】SPTS Single-Point Text Spotting

值得注意的是，我们在这里使用相应的ground-truth来计算距离矩阵来评估性能，即左上角使用到ground-truth左上角点的距离，中央使用到ground-truth中心点的距离，随机使用到ground-truth多边形的最近距离。为了探索所提出的评估协议是否能够真实地代表模型的精度，下表比较了ABCNetv1和ABCNetv2在Total-Text和SCUT-CTW1500上的端到端识别精度，即常用的基于IoU的边界框度量和所提出的基于点的度量。我们的方法对所有三个词汇都实现了最先进的结果。

2024-01-30 23:11:51 1012

原创【读点论文】CMTCo Contrastive Learning with Character Movement Task对比学习中的代理任务和数据增强用在手写字符体识别方向

如图(a)第一幅图所示，红线为垂直投影分布，表示字符像素在对应列位置的投影累计值。根据Sta，我们可以定位文字在文字图像中的大致位置。角色移动任务(CMT)的过程说明。然而，作家通常在单词的不同字符之间使用连续的笔画。因此，为了近似消除笔划粘附的干扰，我们将Sta中小于t的个数设为零，其中t取Sta中第二小的值。如图(a)第二幅图所示，蓝线表示t的值，将蓝线以下的位置设为零，得到图(a)第三幅图。

2024-01-27 23:31:11 936

原创【读点论文】Benchmarking chinese text recognition Datasets, baselines, and an empirical study，中文专题的字符识别

我们观察到，CRNN在每个数据集上的性能都优于那些基于注意力的普通识别器(即MORAN ， SEED和SAR)，后者在遇到较长中文文本的文本图像时容易出现注意力漂移问题（drift problem）。我们从训练集中提取了140589张文本图像，并按8:1:1的比例进行手动分割，得到112471张样本用于训练，14059张样本用于验证，14059张样本用于测试。我们随机对这些样本进行洗牌，并按8:1:1的比例进行分割，得到509,164个样本用于训练，63,645个样本用于验证，63,646个样本用于测试。

2024-01-21 23:10:39 971

原创【读点论文】PageNet Towards End2End Weakly Supervised Page-Level Handwritten Chinese Text Recognition

手写体中文文本识别(HCTR)已经研究了几十年。然而，以往的大多数研究假设文本行检测是由标注提供的，并且只关注裁剪的文本行图像的识别。虽然这些行级方法与语言模型相结合时的精度似乎是足够的，但它们仅限于字符的一维分布，并且在实际应用中受到文本行检测精度的显著影响。因此，页级手写体文本识别具有重要的工业价值，近年来引起了人们极大的研究兴趣。一类页面级方法从整个页面中分割文本区域并识别文本区域，而其他区域利用连接主义时间分类(CTC) 或注意机制结合多维长短期记忆，以无分割或隐式分割的方式解决页面级文本识别问题。

2024-01-20 20:04:37 882

原创认识OCR，从文字检测到文字识别，从任务定义到下游任务，从形态学方法到深度学习

图灵测试是人工智能是否真正能够成功的一个标准，“计算机科学之父”、“人工智能之父”英国数学家图灵在1950年的论文《机器会思考吗》中提出了图灵测试的概念。即把一个人和一台计算机分别放在两个隔离的房间中，房间外的一个人同时询问人和计算机相同的问题，如果房间外的人无法分别哪个是人，哪个是计算机，就能够说明计算机具有人工智能。1981年的诺贝尔将颁发给了David Hubel和Torsten Wiesel，以及Roger Sperry。他们发现了人的视觉系统处理信息是分级的。从视网膜（Retina）出发，经过低级

2024-01-15 11:21:23 1161 1

原创【读点论文】An End-to-End Trainable Neural Network for Image-based Sequence Recognition...将文字识别和文字检测结合在一起

基于图像的序列识别一直是计算机视觉领域一个长期的研究课题。在本文中，我们研究了场景文本识别问题，这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种集特征提取、序列建模和转录于一体的神经网络结构。与以往的场景文本识别系统相比，本文提出的体系结构具有四个特点:(1)与大多数现有算法的组件单独训练和调优不同，它是端到端可训练的。(2)自然处理任意长度的序列，不涉及字符分割或水平尺度归一化。(3)它不局限于任何预定义的词典，在无词典和基于词典的场景文本识别任务中都取得了显著的成绩。

2024-01-14 15:44:48 1025

原创了解一下InternLM3

在平台中选择 A100(1/4) 的配置，如下图所示镜像选择，接下来打开刚刚租用服务器的进入开发机，并且打开其中的终端开始环境配置、模型下载和运行demo。入开发机后，在页面的左上角可以切换JupyterLab终端和VScode，并在终端输入bash命令，进入conda环境。如下图所示：进入conda环境之后，使用以下命令从本地克隆一个已有的的环境,，需要等3分钟左右把shareInternLM-r 选项表示递归地复制目录及其内容也可以使用modelscope中的。

2024-01-07 18:47:44 1088

原创了解一下InternLM2

大模型的优势在于其能够捕捉和理解数据中更为复杂、抽象的特征和关系。通过大规模参数的学习，它们可以提高在各种任务上的泛化能力，并在未经过大量特定领域数据训练的情况下实现较好的表现。然而，大模型也面临着一些挑战，比如巨大的计算资源需求、高昂的训练成本、对大规模数据的依赖以及模型的可解释性等问题。是一个轻量级、开源的基于大语言模型的智能体（agent）框架，支持用户快速地将一个大语言模型转变为多种类型的智能体，并提供了一些典型工具为大语言模型赋能。是一个开源的轻量级训练框架，旨在支持大模型训练而无需大量的依赖。

2024-01-07 17:48:37 1142

原创了解一下InternLM1

此外，ZeRO1.5还采用了新的算法来压缩和存储模型参数，可以在保持模型性能的同时，进一步减少内存和显存的使用。同时，InternLM-7B完全可商用，支持8k语境窗口长度，中文超ChatGPT，训练和评估动态反馈调整，基于LMdeploy部署(基于Fast Transform研发)快速加载大模型，比Transform快到2~3倍，Hybrid Zero提速，开放OpenCompass 评测标准。多阶段的渐进式训练：大模型的渐进式训练可以通过多个阶段进行，每个阶段的目标是逐步提高模型的性能。

2024-01-04 23:12:08 883

原创【读点论文】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking将BERT的训练思路放在图像+文本上

我们在 FUNSD 数据集和 CORD 数据集上进行了实验。FUNSD 是从 RVL-CDIP 数据集中采样的噪声扫描形式理解数据集。FUNSD 数据集包含 199 个文档，其中包含 9,707 个语义实体的综合注释。我们专注于 FUNSD 数据集上的语义实体标记任务，为每个语义实体分配“问题”、“答案”、“标题”或“其他”之间的标签。训练和测试部分分别包含 149 个和 50 个样本。CORD是一个收据关键信息提取数据集，在4个类别下定义了30个语义标签。

2023-12-30 22:23:00 1020

2021-2022年的高精度模型，swin transformer.convnext等

目前Transformer应用到图像领域主要有两大挑战：视觉实体变化大，在不同场景下视觉Transformer性能未必很好图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大针对上述两个问题，我们提出了一种包含滑窗操作，具有层级设计的Swin Transformer。其中滑窗操作包括不重叠的local window，和重叠的cross-window。将注意力计算限制在一个窗口中，一方面能引入CNN卷积操作的局部性，另一方面能节省计算量。 ConvNeXt并没有特别复杂或者创新的结构，它的每一个网络细节都是已经在不止一个网络中被采用。而就是靠这些边角料的互相配合，却也达到了ImageNet Top-1的准确率。它涉及这些边角料的动机也非常简单：Transformer或者Swin-Transformer [3]怎么做，我也对应的调整，效果好就保留。当然这些边角料的摸索也是需要大量的实验数据支撑的，是一个耗时耗力耗资源的过程。通过对ConvNeXt的学习，我等调参侠不仅可以学习到诸多的炼丹经验，还可以一探其背后原理.

2023-02-04

轻量化混合（卷积和transformer）网络，发论文的热点

CNN的成功依赖于其两个固有的归纳偏置，即平移不变性和局部相关性，而视觉Transformer结构通常缺少这种特性，导致通常需要大量数据才能超越CNN的表现，CNN在小数据集上的表现通常比纯Transformer结构要好。 CNN感受野有限导致很难捕获全局信息，而Transformer可以捕获长距离依赖关系，因此ViT出现之后有许多工作尝试将CNN和Transformer结合，使得网络结构能够继承CNN和Transformer的优点，并且最大程度保留全局和局部特征。 Transformer是一种基于注意力的编码器-解码器结构，最初应用于自然语言处理领域，一些研究最近尝试将Transformer应用到计算机视觉领域。在Transformer应用到视觉之前，卷积神经网络是主要研究内容。受到自注意力在NLP领域的影响，一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系，也有另外一些工作直接尝试用自注意力模块替代卷积，但是纯注意力模块结构仍然没有最先进的CNN结构表现好。

2023-02-03

mobilenet系列V1-V3

MobileNet网络是由google团队在2017年提出的，专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络，在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%，但模型参数只有VGG的1/32) MobileNet v2网络是由google团队在cvpr2018年提出的，相比MobileNet v1网络，准确率更高，模型更小。 MobileNet v3发表于eccv2019年，该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、新添加了SE模块，利用NAS（神经结构搜索）来搜索网络的配置和参数。

2022-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2021-2022年的高精度模型，swin transformer.convnext等

轻量化混合（卷积和transformer）网络，发论文的热点

mobilenet系列V1-V3

shufflenetV1

图像分类方向的研究写作，中文学报写作格式，从数据集，经典网络角度分析。

人脸识别综述及应用，了解一下

百度发文，pp-LCnet网络，pp-PicoDet算法，pp-shitu应用

yolov2&deepid.pptx

基于深度学习的图像语义分割分类(ISSbDL).xmind

deeplab系列，一种语义分割的选择.pptx

生成对抗网络与变种.pptx

分治法求众数.pptx

卷积神经网络.pptx

自然语言处理，推荐系统答辩PPT.pptx

白水空空-爬虫概论.pptx

空空如也