TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

相关链接:arxiv github
关键字:Large Multimodal ModelOCR-FreeDocument UnderstandingText-Centric TasksToken Resampling

摘要

我们提出了TextMonkey,这是一个为文本中心任务量身打造的大型多模态模型(LMM),包括文档问题回答(DocVQA)和场景文本分析。本文介绍了几种改进方法:采用偏移窗口注意力机制和零初始化,我们实现了在更高输入分辨率下的跨窗口连接,并稳定了早期的培训;我们假设图像可能包含多余的代币,并通过使用相似度筛选出重要的代币,我们不仅可以简化代币长度,还可以提高模型的性能。此外,通过扩展我们模型的能力,涵盖文本定位和基础设施,并将位置信息纳入答案,我们提高了可解释性,并最大限度地减少了错觉。此外,TextMonkey还可以通过微调来理解屏幕截图点击的命令。总的来说,我们的方法在各种基准数据集中的性能都得到了显著的提升,分别在场景文本中心VQA,面向文档的VQA和KIE中提高了5.2%,6.9%和2.8%,特别是在OCRBench上的得分为561,超过了以前的开放源码大型多模态模型文档理解。代码将在 https://github.com/Yuliang-Liu/Monkey 上发布。

核心方法

在这里插入图片描述

  • 改进的输入处理策略:TextMonkey采用滑动窗口方法将高分辨率图像划分为窗口块,并利用偏移窗口注意力机制通过零初始化实现跨窗口连接。
  • 代币压缩:通过相似度作为标准,找出重要的代币作为查询,减少了不必要的代币长度,提高了模型性能。
  • 文本定位任务支持:模型扩展了处理任务到文本定位,通过将位置线索纳入答案提高了模型的可靠性和可操作性。
  • 丰富的文本中心多任务处理能力:包括文本接地和文本定位在内的各类文本相关任务的支持。
  • 开源代码发布:代码将在github上提供,以促进其它研究者的进一步工作和模型的应用。

实验说明

TextMonkey在多个基准数据集上的表现是:

MethodScene Text-Centric VQADocument-Oriented VQAKIEOCRBench
TextMonkey61.2%64.3%72.2%558
Other Models59.6 - 62.2%59.8 - 66.7%49.3 - 71.3%511 - 561

重新调整数据集来训练模型后,TextMonkey的文档表现有所提高,尤其是在对文档特定内容的理解和解析能力上提供了明显的改善。

结论

TextMonkey作为一个OCR-Free的大型多模态模型,成功应对了各种文本中心的任务,如文档问题回答和场景文本分析。在多个基准数据集上的表现均显著提升,特别是在OCRBench中,显著超过了以往的开放源码模型。通过结合偏移窗口注意力和代币重采样,该模型展示了其在处理高分辨率文档图片时的高效性和稳定性。随着代码的公开发布,我们期待TextMonkey能够对不同领域的研究者产生更大的影响,并在多模态理解领域中获得进一步应用。

深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值