厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA

我爱计算机视觉

于 2024-07-08 12:45:10 发布

阅读量172

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247622683&idx=1&sn=5a776ff085276569ed885a3304b23c62&chksm=979bfbedeb1789531ad776a05f40cf15a846495971d77d65ad8660c7a0af6fcbca6aa5e7af84&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

介绍

多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中，尤其是文档理解领域，模型经常需要处理更为复杂的图文混合输入，这些输入不仅长度更长，而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳，且缺乏相应的Benchmark来评估模型在这些任务上的性能。

近日，来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解（Interleaved Image-Text Comprehension, IITC）。该任务要求模型处理包含复杂图文交错信息的输入，并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务上的表现，他们构建了VEGA数据集。该数据集专注于科学论文的理解，包含超过50,000篇科学论文的图文数据。

作者对Qwen-VL-Chat模型在VEGA数据集上进行了微调，并采用了一种多尺度、多任务的训练策略，得到VEGA-Base模型。实验结果显示，该模型在IITC任务中的图像关联准确率方面达到了85.8%，为IITC任务建立了一个强有力的Baseline。目前，VEGA数据集已全部开源，包含593,000条论文类型训练数据，2个不同任务的2,326条测试数据。

文章链接：https://arxiv.org/pdf/2406.10228
项目链接：https://github.com/zhourax/VEGA
数据集链接：https://huggingface.co/datasets/zhourax977/VEGA

图中展示了VEGA提出的IITC任务和常见的VQA任务的不同

左边：现有的VQA任务以少量的图片和较短的本文作为输入，且图像和文本信息与问题往往强相关。
右边：IITC任务以更长更复杂的图文交错内容作为输入，且包含冗余和具有误导性的信息，模型在回答时要求指明其参考的图像。

方法

任务定义

我们共提出了两个任务用于评估模型处理图文交错输入的能力，其具体定义如下：

IITC任务以包含冗余信息的图文交错的内容作为输入，针对其中的一张图片进行提问，要求模型在回答的时候指明其参考的图片，最终以回答文本的ROUGE、BLEU和参考图片的正确率共同衡量IITC任务的表现。该任务考验模型根据指令关联和提取正确文本和图像信息的能力。
ITA任务将来自多篇文章的文本图像对打乱作为输入，要求模型回答图像和文本之间的对应关系，以对应关系的准确率来衡量ITA任务的表现。ITA任务的训练可以提升模型图像和文本之间的关联能力，进而提升模型在IITC任务上的表现。

VEGA数据集

为了提升和评估模型在IITC和ITA任务上的表现，作者构建了VEGA数据集。VEGA源自SciGraphQA数据集，后者是一个论文图片理解任务的数据集，包含295k个问答对，作者在其基础上进行了问题筛选；上下文构建；答案修改三个步骤，如下图所示，得到VEGA数据集。

问题筛选：原数据集中部分问题缺乏明确的图片指向，当将输入的信息拓展到多图时会造成理解的混淆。
上下文构建：原数据集中问答仅针对一张图片，且提供的上下文信息较少。为了拓展文本和图片的数量作者在arxiv上下载了相关论文的源文件，并构建了4k token和8k token两个长度的数据，每个问答对包含至多8张图片。
答案修改：作者修改了原数据集中的答案，指明了回答时参考的图片，以符合IITC任务的要求。

实验

作者分别使用4k token和8k token长度的VEGA数据在Qwen-VL-Chat 7B上进行了微调，得到了VEGA-Base-4k和VEGA-Base-8k模型，使用8k token长度的VEGA数据及部分私有的图文交错数据训练得到自研模型VEGA-8k*。

这部分私有数据包含了更广泛的图文交错的应用场景，这使得VEGA-8k*具备了更通用的文档图文理解能力，不仅能够完成科学论文的阅读理解任务，在例如：操作手册理解、游玩攻略总结、金融财报分析等任务上也表现优异（具体样例在文末展示）。

作者在VEGA的IITC和ITA子集上对现有的支持多图输入的主流MLLMs进行了测试，具体结果如下：

从结果中我们可以观察到，Qwen-VL-Chat在多个任务中的性能相对较弱，这主要归因于它在遵循指令方面的不足。

相比之下，经过在VEGA数据集上微调的 VEGA-Base-4k 模型和 VEGA-8k* 模型，在IITC和ITA任务上均展现出了卓越的性能，甚至超越了一些主流的闭源模型，达到了SOTA水平。

这强有力地证明了VEGA数据集在提高模型处理图文交错输入方面的有效性。

作者还分别使用SciGraphQA和VEGA数据集对模型进行训练并测试其在SciGraphQA和IITC任务上的表现，其具体结果如下（表格中 VEGA* 代表了旧版本的VEGA数据集）：

测试结果显示，VEGA数据集训练的模型在两个任务上的表现都较好，而经过SciGraphQA训练的模型则无法很好地处理IITC任务，这表明经过VEGA数据集的训练，不仅提升了模型处理长的图文交错输入的能力，也维持了模型在处理传统VQA输入模式的能力。

效果展示

在本章节中，作者进一步展示了在实际场景中多模态阅读理解模型 VEGA-8k* 的效果。作者选取了金融、汽车说明书以及旅游介绍三类场景，设定了难点不同的场景任务 case，对比本文提出的 VEGA-8k* 以及一些开源模型产品的结果。

在实际测试过程中，作者将下列不同难点场景的case中context的内容转换成PDF的形式分别对文心一言、通义千问、KimiChat、腾讯元宝、Gemini和Gemini等多个多模态产品进行测试对比：

【Case 1】说明书场景中针对自然图像的阅读理解

Case难点：用户针对说明书文档中的自然图像进行提问，答案不存在于文档的文字描述中，因此，需要模型对自然图像进行理解后做出回答，并输出对应图像。

从结果中不难发现，目前其他模型多模态模型产品均倾向于直接从文字中获得答案而忽略了图片中的内容。而 VEGA-8k* 则能对文字和图像内容进行联合理解，并根据图像内容给出准确的答案。

【Case 2】说明书场景中输入图片进行提问

Case难点：联合理解用户输入的图片和文字内容，根据文档内容进行回复。从结果中不难发现，目前，KimiChat不支持输入不带有文字内容的图像，文心一言、通义千问和腾讯元宝的线上产品均仅支持图文问答，即根据图片内容回答用户问题，而无法将输入的图片作为问题的一部分进行理解，并根据文档内容进行回复。

目前，仅VEGA-8k*、Gemini和GPT-4o支持该功能。