各位看官好呀!今天咱们继续来聊聊PDF解析那些事儿~ 这可是本系列的第四篇文章啦!前几期没看的小伙伴赶紧去补课(戳这里)。今天的主角是那些不用OCR也能读懂文档的"超级AI"——大型多模态模型!
三巨头登场
首先让我们掌声欢迎今天的三位主角:
- TextMonkey:专治各种文档理解困难症
- Vary:视觉词汇量比牛津词典还丰富
- StrucTexTv3:文本图像处理界的"小钢炮"
TextMonkey:文档界的"齐天大圣"
TextMonkey是一款专为文本中心任务(如文档问答和场景文本分析)定制的大型多模态模型。
概述
TextMonkey能在有限训练资源下提升分辨率,同时保留跨窗口信息并减少因分辨率提升带来的冗余token。此外,通过多种数据和前置提示,TextMonkey已经具备了处理多任务的能力。
图1:TextMonkey架构概览。来源:TextMonkey论文
如图1所示,TextMonkey架构具有以下特点:
- 初始处理:输入图像通过分割模块被划分为不重叠的448x448像素块,这些块再被分割为更小的14x14像素块,每个小块被视为一个token
- 跨窗口关系增强:TextMonkey采用Shifted Window Attention机制成功整合了跨窗口连接,同时扩展了输入分辨率。此外,TextMonkey在Shifted Window Attention机制中引入零初始化,使模型能够避免对早期训练的剧烈修改
- Token重采样器:用于压缩token长度,减少语言空间中的冗余。这些处理后的特征与输入问题一起由LLM分析,生成所需答案
性能表现
如图2左侧所示,TextMonkey能够准确定位和识别场景图像和文档图像中的文本。
图2:TextMonkey的可视化结果。模型生成的边界框用红色标出,真实位置用绿色框标出。来源:TextMonkey论文
此外,解析表格和图表的能力也至关重要。TextMonkey也进行了相关测试,如图3所示。
图3:图表和表格结构化示例。来源:TextMonkey论文
如图3所示,TextMonkey能够将图表和表格转换为JSON格式,展现了其在下游应用中的潜力。
Vary:视觉词汇的"变形金刚"
现代大型视觉语言模型拥有庞大的通用视觉词汇表——CLIP,包含超过4亿个图像-文本对。它涵盖了大多数常见图像和视觉任务。
然而,在某些场景下,如高分辨率感知、非英语OCR和文档/图表理解,CLIP-VIT可能因低效的token化而表现不佳。这是因为它难以将所有视觉信息编码为固定数量的token(通常为256个)。
虽然mPlug-Owl和Qwen-VL尝试通过解冻其视觉词汇网络(CLIP-L或CLIP-G)来解决这个问题,但**Vary**认为这不是一个合理的方案。原因如下:
- 可能覆盖原始词汇知识
- 在相对较大的LLM(7B)上更新视觉词汇训练效率低
- LLM的强大记忆能力阻止视觉词汇网络多次查看同一图像(即无法在多个epoch上训练数据集)
这引出了一个问题:我们能找到一种简化并有效增强视觉词汇的策略吗?
概述