InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructio-CSDN博客

本文链接：https://blog.csdn.net/liferecords/article/details/136937433

InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions

相关链接：arxiv github
关键字：Visual Document Understanding、Instruction Tuning、Multimodal Learning、Zero-Shot Generalization、Large Language Models

摘要

本研究探讨了通过人类编写的指令，在现实世界文档上完成各种视觉文档理解（VDU）任务的问题，例如问答和信息提取。为此，我们提出了InstructDoc，这是第一个大规模的集合，包含30个公开可用的VDU数据集，每个数据集都有多种指令，采用统一格式，涵盖了12个不同的任务，并包括开放的文档类型/格式。此外，为了提高VDU任务的泛化性能，我们设计了一个新的基于指令的文档阅读和理解模型InstructDr，通过一个可训练的桥接模块将文档图像、图像编码器和大型语言模型（LLMs）连接起来。实验表明，InstructDr能够有效地适应给定指令的新VDU数据集、任务和领域，并且在广泛的VDU数据集上超越了现有的多模态LLMs和ChatGPT，而无需特定训练。

核心方法

在这里插入图片描述

InstructDoc数据集：收集了30个公开的VDU数据集，涵盖了12个不同的任务，每个数据集都有专家注释的多样化指令，遵循统一的指令模式，包括用户意图和答案风格。
InstructDr模型：一个新的基于指令的文档阅读和理解模型，通过名为Document-former的桥接模块，将文档图像、图像编码器和大型语言模型连接起来。
- Spatial-aware Document Feature Extraction：使用预训练的CLIP视觉编码器提取文档图像的视觉特征，并结合OCR引擎处理的文本和空间特征。
- Document-former：一个可训练的模块，用于桥接图像编码器和LLM之间的差距，使LLM能够理解文档的内容和布局。
- Multimodal Document Large Language Model：将文档特征、指令和OCR令牌作为输入，输出答案。

实验说明

实验主要在三种零样本设置下进行评估，包括TestCross-Dataset、TestCross-Task和TestCross-Domain。此外，还在特定任务微调设置下评估了模型。使用了多种评估指标，如ANLS、EM、RAcc.、Acc.和ROUGE-L等。实验结果如下表所示：

模型	模态	FUNSD	CORD	ChartQA	InfoVQA	TabFact	DUDE	SlideVQA	Held-out	eF1/F1	eF1/F1	RAcc./F1	ANLS/F1	Acc./F1	ANLS/F1	EM/F1	Avg
LLMDoc V	388M	7B	-/-	/38.2†	/60.2†	/-	LLaVA TV	13B	13B	12.0/1.3	0.2/ 5.1	0.0/1.7	3.4/3.5	0.0/0.0	6.5/5.9	0.0/2.3	3.1/2.8
InstructBLIP TV	103M	3.4B	16.8/15.0	4.9/9.5	3.3/7.2	8.7/7.3	33.6/33.7	11.0/8.8	5.2/9.0	11.9/12.9	BLIP-2 TV	103M	3.4B	19.6/19.6	32.0/51.9	23.6/21.5	48.2/36.7

数据来源：实验数据来源于InstructDoc数据集，该数据集由30个公开的VDU数据集组成，包括多种文档类型和任务。
评估指标：根据不同任务的特点，采用了不同的评估指标，如实体F1、准确率、ROUGE-L等。
实验结果：InstructDr在所有数据集上均取得了最高性能，表明其在遵循自然语言指令的情况下，能够有效地理解多样化的真实世界文档。

结论

我们介绍了一个新的大规模指令调整数据集InstructDoc，为构建能够遵循自然语言指令的通用VDU模型奠定了基础。我们还引入了一个简单而有效的指令调整模型InstructDr，通过Document-former桥接视觉编码器和LLM之间的差距，统一了文档的视觉、文本和布局模态。我们使用InstructDoc进行了全面的指令调整研究，并展示了其在广泛的VDU数据集、任务和领域上的泛化能力。我们相信，我们的数据集将促进开发通用文档人工智能系统的研究。