KOSMOS-2.5:密集文本的多模态读写模型

猴猴猪猪

已于 2023-10-15 16:18:44 修改

阅读量800

点赞数

CC 4.0 BY-SA版权

分类专栏：多模态大模型文章标签：论文阅读人工智能深度学习计算机视觉

于 2023-10-15 14:32:16 首次发布

本文链接：https://blog.csdn.net/pku_langzi/article/details/133803942

多模态大模型专栏收录该内容

22 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

KOSMOS-2.5是微软提出的一种多模态读写模型，专为文本密集型图像的机器阅读设计。它在大规模图像数据上进行预训练，能同时生成具有空间感知的文本块和结构化的markdown文本。模型采用视觉编码器和Transformer解码器，支持两种转录任务：文本块位置转录和markdown生成。通过预训练数据的多样性，KOSMOS-2.5在文本识别和markdown生成任务上表现出色，超越了现有方法，为文本密集图像理解和应用提供了通用工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Overview

总览

题目: KOSMOS-2.5: A Multimodal Literate Model
机构：微软
论文: https://arxiv.org/pdf/2309.11419.pdf
代码: https://github.com/microsoft/unilm
任务: 密集文档类图像转录成结构化文本输出
特点: 同时支持产生具有空间感知的文本块和结构化的markdown文本
方法: 预训练的视觉编码器和一个与重采样模块连接的语言解码器组成
前置相关工作：Pix2Struct，KOSMOS-2，Flamingo

摘要

我们提出了KOSMOS-2.5，这是一个多模态读写模型，用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练，擅长两个独立但协作的转录任务： (1)生成空间感知的文本块，每个文本块在图像内的位置都被赋予其空间坐标； (2)生成结构化文本输出，将样式和结构捕获到markdown格式。通过共享的Transformer架构、任务特定的提示和灵活的文本表示，我们实现了这种统一的多模态读写能力。我们对KOSMOS-2.5进行了文档级文本识别与图像到markdown文本生成的端对端评估。此外，通过监督精调，这个模型可以轻松地适应使用