PDF解析黑科技:从OCR-Free到多模态大模型的进化之旅

各位看官好呀!今天咱们继续来聊聊PDF解析那些事儿~ 这可是本系列的第四篇文章啦!前几期没看的小伙伴赶紧去补课(戳这里)。今天的主角是那些不用OCR也能读懂文档的"超级AI"——大型多模态模型!

三巨头登场

首先让我们掌声欢迎今天的三位主角:

  • TextMonkey:专治各种文档理解困难症
  • Vary:视觉词汇量比牛津词典还丰富
  • StrucTexTv3:文本图像处理界的"小钢炮"

TextMonkey:文档界的"齐天大圣"

TextMonkey是一款专为文本中心任务(如文档问答和场景文本分析)定制的大型多模态模型。

概述

TextMonkey能在有限训练资源下提升分辨率,同时保留跨窗口信息并减少因分辨率提升带来的冗余token。此外,通过多种数据和前置提示,TextMonkey已经具备了处理多任务的能力。

TextMonkey架构图

图1:TextMonkey架构概览。来源:TextMonkey论文

如图1所示,TextMonkey架构具有以下特点:

  • 初始处理:输入图像通过分割模块被划分为不重叠的448x448像素块,这些块再被分割为更小的14x14像素块,每个小块被视为一个token
  • 跨窗口关系增强:TextMonkey采用Shifted Window Attention机制成功整合了跨窗口连接,同时扩展了输入分辨率。此外,TextMonkey在Shifted Window Attention机制中引入零初始化,使模型能够避免对早期训练的剧烈修改
  • Token重采样器:用于压缩token长度,减少语言空间中的冗余。这些处理后的特征与输入问题一起由LLM分析,生成所需答案
性能表现

如图2左侧所示,TextMonkey能够准确定位和识别场景图像和文档图像中的文本。

TextMonkey可视化结果

图2:TextMonkey的可视化结果。模型生成的边界框用红色标出,真实位置用绿色框标出。来源:TextMonkey论文

此外,解析表格和图表的能力也至关重要。TextMonkey也进行了相关测试,如图3所示。

图表和表格结构化示例

图3:图表和表格结构化示例。来源:TextMonkey论文

如图3所示,TextMonkey能够将图表和表格转换为JSON格式,展现了其在下游应用中的潜力。

Vary:视觉词汇的"变形金刚"

现代大型视觉语言模型拥有庞大的通用视觉词汇表——CLIP,包含超过4亿个图像-文本对。它涵盖了大多数常见图像和视觉任务。

然而,在某些场景下,如高分辨率感知、非英语OCR和文档/图表理解,CLIP-VIT可能因低效的token化而表现不佳。这是因为它难以将所有视觉信息编码为固定数量的token(通常为256个)。

虽然mPlug-OwlQwen-VL尝试通过解冻其视觉词汇网络(CLIP-L或CLIP-G)来解决这个问题,但**Vary**认为这不是一个合理的方案。原因如下:

  • 可能覆盖原始词汇知识
  • 在相对较大的LLM(7B)上更新视觉词汇训练效率低
  • LLM的强大记忆能力阻止视觉词汇网络多次查看同一图像(即无法在多个epoch上训练数据集)

这引出了一个问题:我们能找到一种简化并有效增强视觉词汇的策略吗?

概述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI仙人掌

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值