InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructio

InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions

相关链接:arxiv github
关键字:Visual Document UnderstandingInstruction TuningMultimodal LearningZero-Shot GeneralizationLarge Language Models

摘要

本研究探讨了通过人类编写的指令,在现实世界文档上完成各种视觉文档理解(VDU)任务的问题,例如问答和信息提取。为此,我们提出了InstructDoc,这是第一个大规模的集合,包含30个公开可用的VDU数据集,每个数据集都有多种指令,采用统一格式,涵盖了12个不同的任务,并包括开放的文档类型/格式。此外,为了提高VDU任务的泛化性能,我们设计了一个新的基于指令的文档阅读和理解模型InstructDr,通过一个可训练的桥接模块将文档图像、图像编码器和大型语言模型(LLMs)连接起来。实验表明,InstructDr能够有效地适应给定指令的新VDU数据集、任务和领域,并且在广泛的VDU数据集上超越了现有的多模态LLMs和ChatGPT,而无需特定训练。

核心方法

在这里插入图片描述

  • InstructDoc数据集:收集了30个公开的VDU数据集,涵盖了12个不同的任务,每个数据集都有专家注释的多样化指令,遵循统一的指令模式,包括用户意图和答案风格。
  • InstructDr模型:一个新的基于指令的文档阅读和理解模型,通过名为Document-former的桥接模块,将文档图像、图像编码器和大型语言模型连接起来。
    • Spatial-aware Document Feature Extraction:使用预训练的CLIP视觉编码器提取文档图像的视觉特征,并结合OCR引擎处理的文本和空间特征。
    • Document-former:一个可训练的模块,用于桥接图像编码器和LLM之间的差距,使LLM能够理解文档的内容和布局。
    • Multimodal Document Large Language Model:将文档特征、指令和OCR令牌作为输入,输出答案。

实验说明

实验主要在三种零样本设置下进行评估,包括TestCross-Dataset、TestCross-Task和TestCross-Domain。此外,还在特定任务微调设置下评估了模型。使用了多种评估指标,如ANLS、EM、RAcc.、Acc.和ROUGE-L等。实验结果如下表所示:

模型模态FUNSDCORDChartQAInfoVQATabFactDUDESlideVQAHeld-outeF1/F1eF1/F1RAcc./F1ANLS/F1Acc./F1ANLS/F1EM/F1Avg
LLMDoc V388M7B-/-/38.2†/60.2†/-LLaVA TV13B13B12.0/1.30.2/ 5.10.0/1.73.4/3.50.0/0.06.5/5.90.0/2.33.1/2.8
InstructBLIP TV103M3.4B16.8/15.04.9/9.53.3/7.28.7/7.333.6/33.711.0/8.85.2/9.011.9/12.9BLIP-2 TV103M3.4B19.6/19.632.0/51.923.6/21.548.2/36.7
  • 数据来源:实验数据来源于InstructDoc数据集,该数据集由30个公开的VDU数据集组成,包括多种文档类型和任务。
  • 评估指标:根据不同任务的特点,采用了不同的评估指标,如实体F1、准确率、ROUGE-L等。
  • 实验结果:InstructDr在所有数据集上均取得了最高性能,表明其在遵循自然语言指令的情况下,能够有效地理解多样化的真实世界文档。

结论

我们介绍了一个新的大规模指令调整数据集InstructDoc,为构建能够遵循自然语言指令的通用VDU模型奠定了基础。我们还引入了一个简单而有效的指令调整模型InstructDr,通过Document-former桥接视觉编码器和LLM之间的差距,统一了文档的视觉、文本和布局模态。我们使用InstructDoc进行了全面的指令调整研究,并展示了其在广泛的VDU数据集、任务和领域上的泛化能力。我们相信,我们的数据集将促进开发通用文档人工智能系统的研究。

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值