视觉语言模型VLM时代的OCR2.0系列

最新推荐文章于 2025-04-09 10:30:03 发布

小天才学习机打游戏

最新推荐文章于 2025-04-09 10:30:03 发布

阅读量1.2k

点赞数 16

文章标签：语言模型人工智能自然语言处理计算机视觉 transformer 深度学习算法

本文链接：https://blog.csdn.net/m0_59164520/article/details/146920407

版权

光学字符识别(OCR)跟计算机视觉技术一样，经历了从简单模式识别到复杂人工智能系统的演变过程，可以大致分为三个主要时代：特征工程时代、CNN深度学习时代和视觉语言模型(VLM)时代。

OCR一直是离落地最近的研究方向之一，是AI-1.0时代的技术结晶。到了以LLM（LVLM）为核心的AI-2.0时代，OCR成了多模大模型的一项基本能力，各家模型甚至有梭哈之势。同时很多下游任务，例如RAG、智能文档技术均需要依赖OCR识别作为一项基础技能，其重要性不言而喻。因此本文梳理下从OCR视角，技术迭代的演进思路。

1、OCR发展脉络简介

1）特征工程时代（1950s-2000s）

这一时期的OCR主要依赖于手工设计的特征提取和传统机器学习算法。

关键技术：

模板匹配：早期OCR系统通过将字符图像与存储的模板进行比较来识别，研究人员通过分析字符的形状、笔画、边缘等特性，设计了一系列手工特征（如HOG、SIFT、LBP等）来描述字符；
结构特征分析：分析字符的笔画、交叉点、端点等几何特征；
统计特征：使用像素分布、投影直方图、Zoning等统计方法；
传统机器学习：KNN、SVM、决策树等算法用于分类；

代表性系统：

1960s-1970s：最早的OCR系统主要用于邮政编码识别和银行支票处理，采用简单的模板匹配方法，例如：IBM的早期OCR系统（1950s）；
1980s-1990s：引入了更复杂的特征提取方法，如傅里叶变换、轮廓分析等。Tesseract OCR（1980s开始由HP开发，后被Google接管）；
商业OCR软件：如ABBYY FineReader

局限性：

对字体、变形、噪声敏感；
需要大量人工设计特征；
难以处理复杂背景和低质量图像，如自然场景中的文字；

2）CNN时代

深度学习特别是卷积神经网络(CNN)的应用彻底改变了OCR技术。

关键技术：

端到端训练：从图像直接学习到文本，无需手工特征；
CRNN架构：结合CNN和RNN处理序列文本；
CTC损失函数：解决文本对齐问题；
注意力机制：提高对复杂场景文本的识别能力；

代表性工作：

文本检测：EAST、TextBoxes、PSENet、DB-Net；
文本识别：CRNN、RARE、ASTER、SAR；
端到端系统：FOTS、Mask TextSpotter；

优势：

大幅提高了识别准确率；
增强了对变形文本、场景文本的处理能力；
减少了对预处理的依赖；

3）VLM时代开启的OCR-2.0时代？

随着视觉语言模型(VLM)的发展，我们逐渐发现语言能力和感知能力天然存在互补的优势，某些任务使用VLM可能比专业的OCR系统的识别效果更好。因为VLM不仅会感知还会联想，这样大大扩展了OCR的想象空间。

那么为什么VLM会拥有ocr识别的能力，我们首先看下VLM的预训练数据集就清楚了，QwenVL的VQA数据集中明确包含了OCR相关的数据集。

VLM在预训练阶段已经使用了大量的图文对数据集(如Conceptual Captions、LAION等)。这些数据集中包含丰富的图像和对应的描述性文本，其中很多文本直接描述了图像中的文字内容。这种训练方式使模型学会了如何将图像中的文字与语言模型中的词汇对齐。

例如，如果一张图片中有一个路牌写着“STOP”，模型在训练时会接触到类似的图文对数据，并学会将图像中的“STOP”与语言模型中的单词“STOP”关联起来。这种对齐能力使得VLM在面对OCR任务时，能够从图像中识别出文字并将其转换为对应的文本。

这里举例一下经典的OCR-VQA数据集，虽然是简单的图文封面内容，但是VLM能够将这样任务学到的知识泛化在更多下游任务中。

VLM能够进行OCR识别的核心原因在于其多模态架构、预训练中的文本-图像对齐、细粒度特征提取、端到端推理能力以及上下文理解能力。这些优势使得VLM在OCR任务中表现出色，尤其在处理复杂场景或多语言文本时具有显著优势。

2、VLM时代的专业架构

虽然VLM做OCR识别效果已经很不错了，但是想平替OCR1.0系统目前最大的卡点还是速度问题。当前的VLM动辄几十亿参数量，导致推理时长最少也需要3-5s以上，对于以前基本不超过500ms的纯视觉识别系统而言，用户体验而言实在太差了。

2.1 Vary1.0

本文作者从23年开始关注OCR2.0时代的最新进展，最早看到Vary系列时作者在旷视，现在随着阶跃的兴起，Vary2.0的作者机构转到了阶跃星辰。前后两篇文章用的都是小模型，侧重打通语言模型和感知模型的桥梁，而且是重感知，轻语言。

1）训练数据集

合成数据的生成包括文档数据和图表数据。文档数据选择高分辨率的文档图像-文本对作为主要正样本数据集，因为密集OCR可以有效验证模型的细粒度图像感知能力。由于没有公开可用的英文和中文文档数据集，研究者创建了自己的数据集，从arXiv和CC-MAIN-2021-31-PDF-UNTRUNCATED收集英文部分，从互联网上的电子书收集中文部分。

使用PyMuPDF的fitz提取每个pdf页面的文本信息，并通过pdf2image将每个页面转换为PNG图像，构建了100万对中文和英文文档图像-文本对用于训练。

图表数据方面，研究者发现当前LVLMs在图表理解上表现不佳，尤其是中文图表，因此选择它作为需要“写入”新词汇的主要知识。图表图像-文本对的生成遵循渲染方式，选择matplotlib和pyecharts作为渲染工具，分别构建了25万对中文和英文的matplotlib风格图表，以及50万对中文和英文的pyecharts风格图表。

2）模型基本结构

最早的Vary包括两种形式：Vary-tiny和Vary-base。Vary-tiny主要集中于生成一个新的视觉词汇表，而Vary-base则是我们新的大规模视觉语言模型（LVLM），旨在基于新的视觉词汇表处理各种视觉任务。

Vary-tiny由一个词汇表网络和一个小型OPT-125M组成。在这两个模块之间，添加了一个线性层以对齐通道维度。在Vary-tiny中没有文本输入分支，因为它主要关注于精细的感知。

作者希望新的视觉词汇表网络能够在处理人工图像方面表现出色，例如文档和图表，以弥补CLIP的不足。同时，也期望它在对自然图像进行标记时不会产生噪音。因此在生成过程中，使用手动文档和图表数据作为正样本，使用自然图像作为负样本来训练Vary-tiny。完成上述过程后，作者提取词汇表网络并将其添加到一个大型模型中构建Vary-base。

在图的下半部分显示了新旧词汇表网络各自拥有独立的输入嵌入层，并在进入大规模语言模型（LLM）之前进行整合。在这一阶段，冻结新旧视觉词汇表网络的权重，并解冻其他模块的权重。

2.2 Vary2.0

作者分析了传统OCR系统（OCR-1.0）主要存在以下问题：

1）基于多模块流水线的设计（如元素检测、区域裁剪和字符识别）容易陷入局部最优，导致系统维护成本高；

2）通用能力不足，不同的OCR-1.0网络通常针对不同的子任务设计，用户在选择适合特定任务的模型时会感到不便；

3）在高密度文本场景中，传统方法的字符压缩能力有限，难以高效处理复杂的OCR任务

现有的LVLMs不适合多样化OCR任务：

1）感知与推理之间的冲突。LVLMs主要关注视觉推理任务（如视觉问答），而在纯感知OCR任务中，尤其是高密度文本场景中，LVLMs的视觉token对文本token的对齐方式无法有效压缩足够的字符；

2）高迭代和部署成本。LVLMs通常拥有数十亿参数，添加新OCR模式（如新语言）需要大量GPU资源进行预训练，而仅为引入一个新特性重新运行预训练是非常浪费的

GOT框架分为三个阶段：

阶段1：使用一个小型的OPT-125M模型来预训练视觉编码器，以有效适应OCR任务。
阶段2：通过将视觉编码器与Qwen-0.5B连接，并在这一阶段使用更广泛的OCR-2.0知识建立GOT。
阶段3：不需要对视觉编码器进行修改，而是将GOT定制以适应新的字符识别功能。

这一框架的设计旨在通过逐步训练和优化视觉编码器和语言模型，来提高图像文字识别的准确性和适应性。

2.3 olmOCR

这个是基于Qwen2VL的架构加入了更多数据集微调后的方案，整体尝试下来ocr识别效果相当好，能有效地减轻幻觉，是一个可以在工业化应用的方案。

主要优势在于工业级的识别准确率和低成本，处理 100 万页 PDF 的成本约为 190 美元，相比使用 GPT-4o API 的批处理模式，成本仅为其 1/32。olmOCR 完全开源，并发布了模型权重、训练数据集、代码，可自由部署使用。支持多 GPU 扩展，可以在本地或云端进行高效批量处理。

1）训练数据集

Web抓取的PDF文件是从超过2.4亿份从公共网站抓取的文档中抽样得到的。互联网档案馆中的书籍是公共领域的图书。具体来说，Web抓取的PDF文件有99,903个独特文档，共计249,332页；而互联网档案馆的书籍有5,601个独特文档，共计16,803页。总计有105,504个独特文档和266,135页。这张表格在论文中用于说明用于训练的PDF数据集的来源和规模，帮助理解数据集的多样性和覆盖范围。

在选择教师模型时（获取数据标记，即Y值），研究团队评估了多个开放权重和API模型，包括GPT-4o、GPT-4o mini、Gemini1.5和Claude Sonnet 3.5。最终选择了GPT-4o-2024-08-06，因为它在批量模式下表现出高性能且成本相对较低。其他模型如Gemini 1.5因高比例的RECITATION错误被淘汰，而Claude Sonnet 3.5因成本过高未被采用。在PDF工具方面，olmOCR使用了Poppler进行PDF页面的光栅化，并使用PyPDF提取文本块、图像及其位置信息，这些工具支持文档锚定的实现

2）模型基本架构

通过在 25 万页多样化 PDF 数据集上微调训练，能够应对复杂布局（如多栏排版）、嵌入表格、数学公式和手写文本等挑战。结合 “文档锚定” (document anchoring) 技术，提高文本解析质量，在标题、段落、表格、方程式等元素提取方面表现出色。

下图展示了文档锚定（document-anchoring）技术是如何在一个典型的页面上工作的示例。该示意图展示了文档中的相关图像位置和文本块如何被提取、连接，并插入模型的提示中。当向视觉语言模型（VLM）请求文档的纯文本版本时，使用带锚定的文本结合文档页面的栅格化图像。

这种方法通过利用pypdf库来处理PDF文档页面，从底层PDF中提取页面结构的表示形式，包括文本和图像的位置信息。从最相关的文本块和图像开始，这些内容会被采样并添加到VLM的提示中，直到达到定义的最大字符限制。

这种额外信息在模型处理文档时可用，从而减少了模型产生幻觉的可能，尤其是避免仅以页面图像提示时可能导致的未完成句子或捏造大段文本的问题。同时，这种方法在处理无数字元数据的文档时表现良好，这种情况下模型只能依赖页面的栅格化图像来处理底层文档结构。

2.4 QwenVL系列

从Qwen2.5VL的各项指标我们可以看的出来OCR识别领域是遥遥领先的，无论是gpt4o或者claude3.5，我们实际测试下来也确实这样，无论是多语言还是负责场景识别，qwen-max几乎都是全方位碾压国外的两个大模型。

Qwen2.5-VL 将 OCR 识别能力提升至一个新的水平，增强了多场景、多语言和多方向的文本识别和文本定位能力。同时，在信息抽取能力上进行大幅度增强，以满足日益增长的资质审核、金融商务等数字化、智能化需求。从指标来看，CC-OCR和OCRBenceV2中qwen2.5VL7B基本都领先gpt4o接近10个点。

3、应用案例

3.1 实战效果

我们在内部场景进行了OCR识别后的关键信息提取任务验证，比如一张国外的营业执照，我们需要提取公司名称、成立日期等关键信息，并要求结果保存为json格式。我们使用top3顶尖模型（qwenmax+gpt4o+nova）至少2者一样作为Y值，得到如下评测结果；qwen基本能接近满分，gpt4o对比mini提升10%+，qwen7B-VL基本打平gpt4o；

3.2 alphaxiv论文一键转博客

由 alphaXiv 推出的一款新工具 —— 结合了 Mistral OCR 和 Claude 3.7 的强大能力，为 arXiv 论文自动生成博客风格的概述。只需单击一下，你就能获得一篇结构清晰、内容丰富的文章，不仅提炼出论文的核心见解，还配以精美的图表和通俗易懂的解释。无论你是想快速了解论文的要点，还是希望深入挖掘其中的细节，这款工具都能为你提供高效的支持。只需找到 arXiv 论文的链接，将链接中的「arxiv」替换成「alphaxiv」。替换完成后，用户只需在网页下方找到「blog」按钮并点击，便进入了博客生成界面。

以qwenVL的论文为例，点击blog立即进入blog页面，图片表格均保持得很好。

https://www.alphaxiv.org/overview/2308.12966

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述