TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

相关链接:arxiv github
关键字:Large Multimodal ModelOCR-FreeDocument UnderstandingText-Centric TasksToken Resampling

摘要

我们提出了TextMonkey,这是一个为文本中心任务量身打造的大型多模态模型(LMM),包括文档问题回答(DocVQA)和场景文本分析。本文介绍了几种改进方法:采用偏移窗口注意力机制和零初始化,我们实现了在更高输入分辨率下的跨窗口连接,并稳定了早期的培训;我们假设图像可能包含多余的代币,并通过使用相似度筛选出重要的代币,我们不仅可以简化代币长度,还可以提高模型的性能。此外,通过扩展我们模型的能力,涵盖文本定位和基础设施,并将位置信息纳入答案,我们提高了可解释性,并最大限度地减少了错觉。此外,TextMonkey还可以通过微调来理解屏幕截图点击的命令。总的来说,我们的方法在各种基准数据集中的性能都得到了显著的提升,分别在场景文本中心VQA,面向文档的VQA和KIE中提高了5.2%,6.9%和2.8%,特别是在OCRBench上的得分为561,超过了以前的开放源码大型多模态模型文档理解。代码将在 https://github.com/Yuliang-Liu/Monkey 上发布。

核心方法

在这里插入图片描述

  • 改进的输入处理策略:TextMonkey采用滑动窗口方法将高分辨率图像划分为窗口块,并利用偏移窗口注意力机制通过零初始化实现跨窗口连接。
  • 代币压缩:通过相似度作为标准,找出重要的代币作为查询,减少了不必要的代币长度,提高了模型性能。
  • 文本定位任务支持:模型扩展了处理任务到文本定位,通过将位置线索纳入答案提高了模型的可靠性和可操作性。
  • 丰富的文本中心多任务处理能力:包括文本接地和文本定位在内的各类文本相关任务的支持。
  • 开源代码发布:代码将在github上提供,以促进其它研究者的进一步工作和模型的应用。

实验说明

TextMonkey在多个基准数据集上的表现是:

MethodScene Text-Centric VQADocument-Oriented VQAKIEOCRBench
TextMonkey61.2%64.3%72.2%558
Other Models59.6 - 62.2%59.8 - 66.7%49.3 - 71.3%511 - 561

重新调整数据集来训练模型后,TextMonkey的文档表现有所提高,尤其是在对文档特定内容的理解和解析能力上提供了明显的改善。

结论

TextMonkey作为一个OCR-Free的大型多模态模型,成功应对了各种文本中心的任务,如文档问题回答和场景文本分析。在多个基准数据集上的表现均显著提升,特别是在OCRBench中,显著超过了以往的开放源码模型。通过结合偏移窗口注意力和代币重采样,该模型展示了其在处理高分辨率文档图片时的高效性和稳定性。随着代码的公开发布,我们期待TextMonkey能够对不同领域的研究者产生更大的影响,并在多模态理解领域中获得进一步应用。

### Myriad 大型多模态模型在工业异常检测中的应用 Myriad 是一种新型的大型多模态模型,专门针对工业异常检测问题进行了优化设计。该模型的核心理念在于通过引入“视觉专家”来增强其对异常特征的学习能力,并将其与强大的多模态主干网络相结合[^3]。 #### 模型结构与功能 Myriad 的架构具有高度模块化的特性,允许灵活地集成不同的视觉专家组件。这些视觉专家能够识别并突出图像中的关键区域,从而帮助模型更好地捕捉异常特征。具体而言,Myriad 将来自不同领域(如纹理分析、形状匹配等)的专业知识融入到统一框架中,使得它不仅具备传统工业异常检测方法的优势,还继承了大规模多模态模型的强大泛化能力和指令遵循能力[^1]。 #### 数据效率与灵活性 相比于传统的单一任务模型或通用的大规模语言/视觉模型,Myriad 展现出更高的数据效率和更好的适应性。这主要得益于以下几个方面: - **专业知识融合**:通过对已有工业异常检测技术的有效利用,减少了对额外标注数据的需求。 - **模块化扩展**:由于采用了可插拔的设计思路,因此可以根据实际应用场景轻松调整配置而不必完全重训整个系统[^4]。 #### 实验验证与表现 为了评估 Myriad 的有效性,在多个公开可用的数据集上开展了广泛测试,包括但不限于 MVTec AD、VisA 和 PCB Bank 基准测试集合。结果显示,在单样本学习以及少量样例支持的情况下,相比其他先进方案均取得了显著改进的效果指标得分[^2]。 ```python # 示例代码展示如何加载预训练好的 Myriad 模型用于新项目开发阶段快速原型构建过程的一部分逻辑片段 from myriad import load_pretrained_model, detect_anomalies model = load_pretrained_model('myriad_vision_expert') test_images = ['path/to/image1.png', 'path/to/image2.jpg'] results = detect_anomalies(model=model, images=test_images) for result in results: print(f"Image {result['image']} has anomaly score of {result['score']}") ``` 上述脚本演示了一个简单的例子说明怎样调用预先训练完成后的 Myriad 来执行基本的任务操作流程——即给定一批待测图片文件路径列表之后返回每张图对应的异常评分数值结果。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值