KOSMOS-2.5: A Multimodal Literate Model
相关链接:arXiv
关键字:multimodal、literate model、text-intensive images、Transformer architecture、document-level text recognition
摘要
我们介绍了KOSMOS-2.5,这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练,擅长两个不同但相互合作的转录任务:(1) 生成空间感知的文本块,每个文本块在图像中分配其空间坐标;(2) 生产结构化文本输出,以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示,实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。此外,该模型可以通过监督微调轻松适应任何文本密集型图像理解任务,使其成为涉及丰富文本图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。
核心方法
- 多模态文学模型:KOSMOS-2.5结合了视觉和文本信息,通过单一的Transformer基础模型来学习和生成基于两种模态的内容。
- 空间感知文本块生成:模型能够识别文本行并将其与图像中的相应空间坐标对齐,生成带有边界框的文本。
- 结构化文本输出:模型能够捕捉文本的样式和结构,并将其转换成markdown格式的输出。
- 共享Transformer架构:KOSMOS-2.5采用了基于Vision Transformer的视觉编码器和基于Transformer的语言解码器,通过重采样模块连接。
- 灵活的文本表示:模型支持多种文本表示,包括带边界框的文本行和纯markdown文本。
实验说明
实验结果展示了KOSMOS-2.5在多个任务上的性能,包括端到端的文档级文本识别和图像到markdown文本的生成。实验使用了不同的基准数据集,如FUNSD、SROIE和CORD,以及从各种来源生成的图像到markdown的数据集。评估指标包括单词级别的精确度、召回率和F1分数,以及归一化编辑距离(NED)和归一化树编辑距离(NTED)。
数据集 | 任务 | 指标 | KOSMOS-2.5 | 商业OCR |
---|---|---|---|---|
FUNSD | 文本识别 | F1 | 83.26% | 82.93% |
SROIE | 文本识别 | F1 | 92.14% | 89.69% |
CORD | 文本识别 | F1 | 85.69% | 84.34% |
通用文档 | 图像到markdown | NED/NTED | 91.59%/82.08% | - |
README | 图像到markdown | NED/NTED | 95.09%/91.18% | - |
表格 | 图像到markdown | NED/NTED | 85.14%/90.64% | - |
实验数据来源于多种文本密集型图像,包括IIT-CDIP数据集、arXiv论文、PowerPoint幻灯片、一般PDF文件、网页截图、README文件、DOCX页面、LATEX代码和HTML文件。数据经过预处理和质量控制,以确保多样性和准确性。
结论
我们介绍了KOSMOS-2.5,这是一个多模态文学模型,它在文本密集型图像理解方面表现出色。KOSMOS-2.5代表了从传统的编码器-解码器模型到解码器-只有模型的重要范式转变。它通过整合生成性多模态语言建模简化了应用接口,消除了传统上用于各种下游任务的复杂级联管道。此外,KOSMOS-2.5展示了在少次和零次学习场景中的潜力,为未来多模态文学模型的扩展和扩展奠定了基础。