PDF解析黑科技：从OCR-Free到多模态大模型的进化之旅

最新推荐文章于 2025-04-10 08:58:38 发布

AI仙人掌

最新推荐文章于 2025-04-10 08:58:38 发布

阅读量1k

点赞数 17

分类专栏： # RAG基建之PDF解析文章标签： pdf 科技 ocr 人工智能 LLM RAG

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36603091/article/details/146757513

版权

各位看官好呀！今天咱们继续来聊聊PDF解析那些事儿~ 这可是本系列的第四篇文章啦！前几期没看的小伙伴赶紧去补课（戳这里）。今天的主角是那些不用OCR也能读懂文档的"超级AI"——大型多模态模型！

三巨头登场

首先让我们掌声欢迎今天的三位主角：

TextMonkey：专治各种文档理解困难症
Vary：视觉词汇量比牛津词典还丰富
StrucTexTv3：文本图像处理界的"小钢炮"

TextMonkey：文档界的"齐天大圣"

TextMonkey是一款专为文本中心任务（如文档问答和场景文本分析）定制的大型多模态模型。

概述

TextMonkey能在有限训练资源下提升分辨率，同时保留跨窗口信息并减少因分辨率提升带来的冗余token。此外，通过多种数据和前置提示，TextMonkey已经具备了处理多任务的能力。

TextMonkey架构图

图1：TextMonkey架构概览。来源：TextMonkey论文

如图1所示，TextMonkey架构具有以下特点：

初始处理：输入图像通过分割模块被划分为不重叠的448x448像素块，这些块再被分割为更小的14x14像素块，每个小块被视为一个token
跨窗口关系增强：TextMonkey采用Shifted Window Attention机制成功整合了跨窗口连接，同时扩展了输入分辨率。此外，TextMonkey在Shifted Window Attention机制中引入零初始化，使模型能够避免对早期训练的剧烈修改
Token重采样器：用于压缩token长度，减少语言空间中的冗余。这些处理后的特征与输入问题一起由LLM分析，生成所需答案

性能表现

如图2左侧所示，TextMonkey能够准确定位和识别场景图像和文档图像中的文本。

TextMonkey可视化结果

图2：TextMonkey的可视化结果。模型生成的边界框用红色标出，真实位置用绿色框标出。来源：TextMonkey论文

此外，解析表格和图表的能力也至关重要。TextMonkey也进行了相关测试，如图3所示。

图表和表格结构化示例

图3：图表和表格结构化示例。来源：TextMonkey论文

如图3所示，TextMonkey能够将图表和表格转换为JSON格式，展现了其在下游应用中的潜力。

Vary：视觉词汇的"变形金刚"

现代大型视觉语言模型拥有庞大的通用视觉词汇表——CLIP，包含超过4亿个图像-文本对。它涵盖了大多数常见图像和视觉任务。

然而，在某些场景下，如高分辨率感知、非英语OCR和文档/图表理解，CLIP-VIT可能因低效的token化而表现不佳。这是因为它难以将所有视觉信息编码为固定数量的token（通常为256个）。

虽然mPlug-Owl和Qwen-VL尝试通过解冻其视觉词汇网络（CLIP-L或CLIP-G）来解决这个问题，但**Vary**认为这不是一个合理的方案。原因如下：

可能覆盖原始词汇知识
在相对较大的LLM（7B）上更新视觉词汇训练效率低
LLM的强大记忆能力阻止视觉词汇网络多次查看同一图像（即无法在多个epoch上训练数据集）

这引出了一个问题：我们能找到一种简化并有效增强视觉词汇的策略吗？

概述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI仙人掌 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。