KOSMOS-2.5: A Multimodal Literate Model

KOSMOS-2.5: A Multimodal Literate Model

相关链接:arXiv
关键字:multimodalliterate modeltext-intensive imagesTransformer architecturedocument-level text recognition

摘要

我们介绍了KOSMOS-2.5,这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练,擅长两个不同但相互合作的转录任务:(1) 生成空间感知的文本块,每个文本块在图像中分配其空间坐标;(2) 生产结构化文本输出,以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示,实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。此外,该模型可以通过监督微调轻松适应任何文本密集型图像理解任务,使其成为涉及丰富文本图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。

核心方法

在这里插入图片描述

  1. 多模态文学模型:KOSMOS-2.5结合了视觉和文本信息,通过单一的Transformer基础模型来学习和生成基于两种模态的内容。
  2. 空间感知文本块生成:模型能够识别文本行并将其与图像中的相应空间坐标对齐,生成带有边界框的文本。
  3. 结构化文本输出:模型能够捕捉文本的样式和结构,并将其转换成markdown格式的输出。
  4. 共享Transformer架构:KOSMOS-2.5采用了基于Vision Transformer的视觉编码器和基于Transformer的语言解码器,通过重采样模块连接。
  5. 灵活的文本表示:模型支持多种文本表示,包括带边界框的文本行和纯markdown文本。

实验说明

实验结果展示了KOSMOS-2.5在多个任务上的性能,包括端到端的文档级文本识别和图像到markdown文本的生成。实验使用了不同的基准数据集,如FUNSD、SROIE和CORD,以及从各种来源生成的图像到markdown的数据集。评估指标包括单词级别的精确度、召回率和F1分数,以及归一化编辑距离(NED)和归一化树编辑距离(NTED)。

数据集任务指标KOSMOS-2.5商业OCR
FUNSD文本识别F183.26%82.93%
SROIE文本识别F192.14%89.69%
CORD文本识别F185.69%84.34%
通用文档图像到markdownNED/NTED91.59%/82.08%-
README图像到markdownNED/NTED95.09%/91.18%-
表格图像到markdownNED/NTED85.14%/90.64%-

实验数据来源于多种文本密集型图像,包括IIT-CDIP数据集、arXiv论文、PowerPoint幻灯片、一般PDF文件、网页截图、README文件、DOCX页面、LATEX代码和HTML文件。数据经过预处理和质量控制,以确保多样性和准确性。

结论

我们介绍了KOSMOS-2.5,这是一个多模态文学模型,它在文本密集型图像理解方面表现出色。KOSMOS-2.5代表了从传统的编码器-解码器模型到解码器-只有模型的重要范式转变。它通过整合生成性多模态语言建模简化了应用接口,消除了传统上用于各种下游任务的复杂级联管道。此外,KOSMOS-2.5展示了在少次和零次学习场景中的潜力,为未来多模态文学模型的扩展和扩展奠定了基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值