InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions
相关链接:arxiv github
关键字:Visual Document Understanding、Instruction Tuning、Multimodal Learning、Zero-Shot Generalization、Large Language Models
摘要
本研究探讨了通过人类编写的指令,在现实世界文档上完成各种视觉文档理解(VDU)任务的问题,例如问答和信息提取。为此,我们提出了InstructDoc,这是第一个大规模的集合,包含30个公开可用的VDU数据集,每个数据集都有多种指令,采用统一格式,涵盖了12个不同的任务,并包括开放的文档类型/格式。此外,为了提高VDU任务的泛化性能,我们设计了一个新的基于指令的文档阅读和理解模型InstructDr,通过一个可训练的桥接模块将文档图像、图像编码器和大型语言模型(LLMs)连接起来。实验表明,InstructDr能够有效地适应给定指令的新VDU数据集、任务和领域,并且在广泛的VDU数据集上超越了现有的多模态LLMs和ChatGPT,而无需特定训练。
核心方法
- InstructDoc数据集:收集了30个公开的VDU数据集,涵盖了12个不同的任务,每个数据集都有专家注释的多样化指令,遵循统一的指令模式,包括用户意图和答案风格。
- InstructDr模型:一个新的基于指令的文档阅读和理解模型,通过名为Document-former的桥接模块,将文档图像、图像编码器和大型语言模型连接起来。
- Spatial-aware Document Feature Extraction:使用预训练的CLIP视觉编码器提取文档图像的视觉特征,并结合OCR引擎处理的文本和空间特征。
- Document-former:一个可训练的模块,用于桥接图像编码器和LLM之间的差距,使LLM能够理解文档的内容和布局。
- Multimodal Document Large Language Model:将文档特征、指令和OCR令牌作为输入,输出答案。
实验说明
实验主要在三种零样本设置下进行评估,包括TestCross-Dataset、TestCross-Task和TestCross-Domain。此外,还在特定任务微调设置下评估了模型。使用了多种评估指标,如ANLS、EM、RAcc.、Acc.和ROUGE-L等。实验结果如下表所示:
模型 | 模态 | FUNSD | CORD | ChartQA | InfoVQA | TabFact | DUDE | SlideVQA | Held-out | eF1/F1 | eF1/F1 | RAcc./F1 | ANLS/F1 | Acc./F1 | ANLS/F1 | EM/F1 | Avg |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LLMDoc V | 388M | 7B | -/- | /38.2† | /60.2† | /- | LLaVA TV | 13B | 13B | 12.0/1.3 | 0.2/ 5.1 | 0.0/1.7 | 3.4/3.5 | 0.0/0.0 | 6.5/5.9 | 0.0/2.3 | 3.1/2.8 |
InstructBLIP TV | 103M | 3.4B | 16.8/15.0 | 4.9/9.5 | 3.3/7.2 | 8.7/7.3 | 33.6/33.7 | 11.0/8.8 | 5.2/9.0 | 11.9/12.9 | BLIP-2 TV | 103M | 3.4B | 19.6/19.6 | 32.0/51.9 | 23.6/21.5 | 48.2/36.7 |
- 数据来源:实验数据来源于InstructDoc数据集,该数据集由30个公开的VDU数据集组成,包括多种文档类型和任务。
- 评估指标:根据不同任务的特点,采用了不同的评估指标,如实体F1、准确率、ROUGE-L等。
- 实验结果:InstructDr在所有数据集上均取得了最高性能,表明其在遵循自然语言指令的情况下,能够有效地理解多样化的真实世界文档。
结论
我们介绍了一个新的大规模指令调整数据集InstructDoc,为构建能够遵循自然语言指令的通用VDU模型奠定了基础。我们还引入了一个简单而有效的指令调整模型InstructDr,通过Document-former桥接视觉编码器和LLM之间的差距,统一了文档的视觉、文本和布局模态。我们使用InstructDoc进行了全面的指令调整研究,并展示了其在广泛的VDU数据集、任务和领域上的泛化能力。我们相信,我们的数据集将促进开发通用文档人工智能系统的研究。