KOSMOS-2.5: A Multimodal Literate Model

最新推荐文章于 2025-04-27 17:11:50 发布

liferecords

最新推荐文章于 2025-04-27 17:11:50 发布

阅读量1.5k

点赞数 28

分类专栏： LLM 文章标签：人工智能智能文档大语言模型

本文链接：https://blog.csdn.net/liferecords/article/details/137151361

版权

LLM 专栏收录该内容

71 篇文章

订阅专栏

KOSMOS-2.5: A Multimodal Literate Model

相关链接：arXiv
关键字：multimodal、literate model、text-intensive images、Transformer architecture、document-level text recognition

摘要

我们介绍了KOSMOS-2.5，这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练，擅长两个不同但相互合作的转录任务：(1) 生成空间感知的文本块，每个文本块在图像中分配其空间坐标；(2) 生产结构化文本输出，以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示，实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。此外，该模型可以通过监督微调轻松适应任何文本密集型图像理解任务，使其成为涉及丰富文本图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。

核心方法

在这里插入图片描述

多模态文学模型：KOSMOS-2.5结合了视觉和文本信息，通过单一的Transformer基础模型来学习和生成基于两种模态的内容。
空间感知文本块生成：模型能够识别文本行并将其与图像中的相应空间坐标对齐，生成带有边界框的文本。
结构化文本输出：模型能够捕捉文本的样式和结构，并将其转换成markdown格式的输出。
共享Transformer架构：KOSMOS-2.5采用了基于Vision Transformer的视觉编码器和基于Transformer的语言解码器，通过重采样模块连接。
灵活的文本表示：模型支持多种文本表示，包括带边界框的文本行和纯markdown文本。

实验说明

实验结果展示了KOSMOS-2.5在多个任务上的性能，包括端到端的文档级文本识别和图像到markdown文本的生成。实验使用了不同的基准数据集，如FUNSD、SROIE和CORD，以及从各种来源生成的图像到markdown的数据集。评估指标包括单词级别的精确度、召回率和F1分数，以及归一化编辑距离(NED)和归一化树编辑距离(NTED)。

数据集	任务	指标	KOSMOS-2.5	商业OCR
FUNSD	文本识别	F1	83.26%	82.93%
SROIE	文本识别	F1	92.14%	89.69%
CORD	文本识别	F1	85.69%	84.34%
通用文档	图像到markdown	NED/NTED	91.59%/82.08%	-
README	图像到markdown	NED/NTED	95.09%/91.18%	-
表格	图像到markdown	NED/NTED	85.14%/90.64%	-

实验数据来源于多种文本密集型图像，包括IIT-CDIP数据集、arXiv论文、PowerPoint幻灯片、一般PDF文件、网页截图、README文件、DOCX页面、LATEX代码和HTML文件。数据经过预处理和质量控制，以确保多样性和准确性。

结论

我们介绍了KOSMOS-2.5，这是一个多模态文学模型，它在文本密集型图像理解方面表现出色。KOSMOS-2.5代表了从传统的编码器-解码器模型到解码器-只有模型的重要范式转变。它通过整合生成性多模态语言建模简化了应用接口，消除了传统上用于各种下游任务的复杂级联管道。此外，KOSMOS-2.5展示了在少次和零次学习场景中的潜力，为未来多模态文学模型的扩展和扩展奠定了基础。