厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA

关注公众号,发现CV技术之美

介绍

多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。

近日,来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解(Interleaved Image-Text Comprehension, IITC)。该任务要求模型处理包含复杂图文交错信息的输入,并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务上的表现,他们构建了VEGA数据集。该数据集专注于科学论文的理解,包含超过50,000篇科学论文的图文数据。

作者对Qwen-VL-Chat模型在VEGA数据集上进行了微调,并采用了一种多尺度、多任务的训练策略,得到VEGA-Base模型。实验结果显示,该模型在IITC任务中的图像关联准确率方面达到了85.8%,为IITC任务建立了一个强有力的Baseline。目前,VEGA数据集已全部开源,包含593,000条论文类型训练数据,2个不同任务的2,326条测试数据。

7a0bc68d3f6c8d13fdf99e89420efad7.png
  • 文章链接:https://arxiv.org/pdf/2406.10228

  • 项目链接:https://github.com/zhourax/VEGA

  • 数据集链接:https://huggingface.co/datasets/zhourax977/VEGA

8dd353c1b9303a3081b10f6994ca78ac.png

图中展示了VEGA提出的IITC任务和常见的VQA任务的不同

  • 左边:现有的VQA任务以少量的图片和较短的本文作为输入,且图像和文本信息与问题往往强相关。

  • 右边:IITC任务以更长更复杂的图文交错内容作为输入,且包含冗余和具有误导性的信息,模型在回答时要求指明其参考的图像。

方法


任务定义

我们共提出了两个任务用于评估模型处理图文交错输入的能力,其具体定义如下:

5a711ff64cbad5681ae99868ed46bdec.png
  • IITC任务以包含冗余信息的图文交错的内容作为输入,针对其中的一张图片进行提问,要求模型在回答的时候指明其参考的图片,最终以回答文本的ROUGE、BLEU和参考图片的正确率共同衡量IITC任务的表现。该任务考验模型根据指令关联和提取正确文本和图像信息的能力。

  • ITA任务将来自多篇文章的文本图像对打乱作为输入,要求模型回答图像和文本之间的对应关系,以对应关系的准确率来衡量ITA任务的表现。ITA任务的训练可以提升模型图像和文本之间的关联能力,进而提升模型在IITC任务上的表现。

VEGA数据集

为了提升和评估模型在IITC和ITA任务上的表现,作者构建了VEGA数据集。VEGA源自SciGraphQA数据集,后者是一个论文图片理解任务的数据集,包含295k个问答对,作者在其基础上进行了问题筛选上下文构建答案修改三个步骤,如下图所示,得到VEGA数据集。

831f1c02318c8029bbdec0b5452309e5.png
  • 问题筛选:原数据集中部分问题缺乏明确的图片指向,当将输入的信息拓展到多图时会造成理解的混淆。

  • 上下文构建:原数据集中问答仅针对一张图片,且提供的上下文信息较少。为了拓展文本和图片的数量作者在arxiv上下载了相关论文的源文件,并构建了4k token8k token两个长度的数据,每个问答对包含至多8张图片。

  • 答案修改:作者修改了原数据集中的答案,指明了回答时参考的图片,以符合IITC任务的要求。

实验

作者分别使用4k token和8k token长度的VEGA数据在Qwen-VL-Chat 7B上进行了微调,得到了VEGA-Base-4kVEGA-Base-8k模型,使用8k token长度的VEGA数据及部分私有的图文交错数据训练得到自研模型VEGA-8k*

这部分私有数据包含了更广泛的图文交错的应用场景,这使得VEGA-8k*具备了更通用的文档图文理解能力,不仅能够完成科学论文的阅读理解任务,在例如:操作手册理解、游玩攻略总结、金融财报分析等任务上也表现优异(具体样例在文末展示)。

作者在VEGA的IITC和ITA子集上对现有的支持多图输入的主流MLLMs进行了测试,具体结果如下:

980f15af81943fbf9214fdfaad7e9ea4.png

从结果中我们可以观察到,Qwen-VL-Chat在多个任务中的性能相对较弱,这主要归因于它在遵循指令方面的不足。

相比之下,经过在VEGA数据集上微调的 VEGA-Base-4k 模型和 VEGA-8k* 模型,在IITC和ITA任务上均展现出了卓越的性能,甚至超越了一些主流的闭源模型,达到了SOTA水平。

这强有力地证明了VEGA数据集在提高模型处理图文交错输入方面的有效性。

作者还分别使用SciGraphQA和VEGA数据集对模型进行训练并测试其在SciGraphQA和IITC任务上的表现,其具体结果如下(表格中 VEGA* 代表了旧版本的VEGA数据集):

e259cd1f48132f0cb552b6dc3eb41812.png

测试结果显示,VEGA数据集训练的模型在两个任务上的表现都较好,而经过SciGraphQA训练的模型则无法很好地处理IITC任务,这表明经过VEGA数据集的训练,不仅提升了模型处理长的图文交错输入的能力,也维持了模型在处理传统VQA输入模式的能力。

效果展示

在本章节中,作者进一步展示了在实际场景中多模态阅读理解模型 VEGA-8k* 的效果。作者选取了金融、汽车说明书以及旅游介绍三类场景,设定了难点不同的场景任务 case,对比本文提出的 VEGA-8k* 以及一些开源模型产品的结果。

在实际测试过程中,作者将下列不同难点场景的case中context的内容转换成PDF的形式分别对文心一言、通义千问、KimiChat、腾讯元宝、Gemini和Gemini等多个多模态产品进行测试对比:

【Case 1】说明书场景中针对自然图像的阅读理解

Case难点:用户针对说明书文档中的自然图像进行提问,答案不存在于文档的文字描述中,因此,需要模型对自然图像进行理解后做出回答,并输出对应图像。

从结果中不难发现,目前其他模型多模态模型产品均倾向于直接从文字中获得答案而忽略了图片中的内容。而 VEGA-8k* 则能对文字和图像内容进行联合理解,并根据图像内容给出准确的答案。

c21557fc40e3f6a41bcff03a99c2d23f.png
【Case 2】说明书场景中输入图片进行提问

Case难点:联合理解用户输入的图片和文字内容,根据文档内容进行回复。从结果中不难发现,目前,KimiChat不支持输入不带有文字内容的图像,文心一言、通义千问和腾讯元宝的线上产品均仅支持图文问答,即根据图片内容回答用户问题,而无法将输入的图片作为问题的一部分进行理解,并根据文档内容进行回复。

目前,仅VEGA-8k*、Gemini和GPT-4o支持该功能。

5fe9b29aa943641adfb1bd2a9a7d18b7.png
【Case 3】 金融场景中针对数据图片的阅读理解

Case难点:理解文字内容,结合图像里的数据内容回答用户问题。从该case的结果中可见,文心一言、腾讯元宝和Gemini均没有对文档中的数据图进行理解,而通义千问、KimiChat虽然在【Case 1】中没有理解文档里的自然图像,但在该样例中对于数据类型的图像有着较好的理解能力。

但除了VEGA-8k*之外,其他模型均不具备输出相关图像作为辅助说明的能力。

9a2b10f3690864b23823405c885b6c4b.png
【Case 4】 旅游介绍场景中总结全文的图文关联

Case 难点:联合理解文字和图片内容,根据文字和图片之间的关联性,总结文字摘要的同时,在正确的位置输出图片。从结果上来看,所有模型都有着较好的指令跟随能力,能够输出指定的图片格式“[Picture *]。

但是,大部分的模型几乎都是机械式地输出文字附近的图片下标,而没有真正去理解图片内容,Gemini甚至出现了幻觉([Picture 8, Picture 9])只有VEGA-8k*和GPT-4O能够正确理解理解图文之间的关联性,给出出图率和准确率都较高的回答。

6b47203961719e3a79076d303b056a5f.png
【Case 5】 论文场景中的数据图理解

Case难点:论文数据图的相似度较高,需要细节化理解图片内容,找到正确的对应图片。从结果中不难发现,腾讯元宝没有正确跟随指令,导致没有输出图片占位符,而其他模型对于相似图片的区分度较低,且易受到文本内容的干扰,甚至于GPT-4V也出现了误判情况,

例如:Figure 4和Figure 5非常相似,但根据两图的x轴和y轴标签,我们可以确认问题是针对Figure 5提出的。现有模型未能有效捕捉到图片间的差异,因此未能给出正确的答案。而VEGA-8k*由于经过了较多的论文数据训练,对于数据图像细节的区分度较高,输出更加准确。

在一些问题指向更明确,图片之间差异更大的样例中,如第二个case,大多数模型可以正确地找到图片和问题之间的对应关系,少部分模型如文心大模型-3.5和腾讯元宝,在指令跟随和图文关联能力上存在不足,可能会出现拒答或无法关联图片的情况。

467a81cc538bbe81074f685e8ccf2257.png 26f9f6f8c3be184b5d1ac9011f216280.png

最新 AI 进展报道
请联系:amos@52cv.net

5b3d7a65827fa3bddae2abf213656445.jpeg

END

加入「多模态大模型交流群👇备注:LLM

9cf73b924d392f193f9739d4c375aa4b.png

内容概要:本文档详细介绍了Android开发中内容提供者(ContentProvider)的使用方法及其在应用间数据共享的作用。首先解释了ContentProvider作为四大组件之一,能够为应用程序提供统一的数据访问接口,支持不同应用间的跨进程数据共享。接着阐述了ContentProvider的核心方法如onCreate、insert、delete、update、query和getType的具体功能与应用场景。文档还深入讲解了Uri的结构和作用,它是ContentProvider中用于定位资源的重要标识。此外,文档说明了如何通过ContentResolver在客户端应用中访问其他应用的数据,并介绍了Android 6.0及以上版本的运行时权限管理机制,包括权限检查、申请及处理用户的选择结果。最后,文档提供了具体的实例,如通过ContentProvider读写联系人信息、监听短信变化、使用FileProvider发送彩信和安装应用等。 适合人群:对Android开发有一定了解,尤其是希望深入理解应用间数据交互机制的开发者。 使用场景及目标:①掌握ContentProvider的基本概念和主要方法的应用;②学会使用Uri进行资源定位;③理解并实现ContentResolver访问其他应用的数据;④熟悉Android 6.0以后版本的权限管理流程;⑤掌握FileProvider在发送彩信和安装应用中的应用。 阅读建议:建议读者在学习过程中结合实际项目练习,特别是在理解和实现ContentProvider、ContentResolver以及权限管理相关代码时,多进行代码调试和测试,确保对每个知识点都有深刻的理解。
开发语言:Java 框架:SSM(Spring、Spring MVC、MyBatis) JDK版本:JDK 1.8 或以上 开发工具:Eclipse 或 IntelliJ IDEA Maven版本:Maven 3.3 或以上 数据库:MySQL 5.7 或以上 此压缩包包含了本毕业设计项目的完整内容,具体包括源代码、毕业论文以及演示PPT模板。 项目配置完成后即可运行,若需添加额外功能,可根据需求自行扩展。 运行条件 确保已安装 JDK 1.8 或更高版本,并正确配置 Java 环境变量。 使用 Eclipse 或 IntelliJ IDEA 打开项目,导入 Maven 依赖,确保依赖包下载完成。 配置数据库环境,确保 MySQL 服务正常运行,并导入项目中提供的数据库脚本。 在 IDE 中启动项目,确认所有服务正常运行。 主要功能简述: 用户管理:系统管理员负责管理所有用户信息,包括学生、任课老师、班主任、院系领导和学校领导的账号创建、权限分配等。 数据维护:管理员可以动态更新和维护系统所需的数据,如学生信息、课程安排、学年安排等,确保系统的正常运行。 系统配置:管理员可以对系统进行配置,如设置数据库连接参数、调整系统参数等,以满足不同的使用需求。 身份验证:系统采用用户名和密码进行身份验证,确保只有授权用户才能访问系统。不同用户类型(学生、任课老师、班主任、院系领导、学校领导、系统管理员)具有不同的操作权限。 权限控制:系统根据用户类型分配不同的操作权限,确保用户只能访问和操作其权限范围内的功能和数据。 数据安全:系统采取多种措施保障数据安全,如数据库加密、访问控制等,防止数据泄露和非法访问。 请假审批流程:系统支持请假申请的逐级审批,包括班主任审批和院系领导审批(针对超过三天的请假)。学生可以随时查看请假申请的审批进展情况。 请假记录管理:系统记录学生的所有请假记录,包括请假时间、原因、审批状态及审批意见等,供学生和审批人员查询。 学生在线请假:学生可以通过系统在线填写请假申请,包括请假的起止日期和请假原因,并提交给班主任审批。超过三天的请假需经班主任审批后,再由院系领导审批。 出勤信息记录:任课老师可以在线记录学生的上课出勤情况,包括迟到、早退、旷课和请假等状态。 出勤信息查询:学生、任课老师、班主任、院系领导和学校领导均可根据权限查看不同范围的学生上课出勤信息。学生可以查看自己所有学年的出勤信息,任课老师可以查看所教班级的出勤信息,班主任和院系领导可以查看本班或本院系的出勤信息,学校领导可以查看全校的出勤信息。 出勤统计与分析:系统提供出勤统计功能,可以按班级、学期等条件统计学生的出勤情况,帮助管理人员了解学生的出勤状况
开发语言:Java 框架:SSM(Spring、Spring MVC、MyBatis) JDK版本:JDK 1.8 或以上 开发工具:Eclipse 或 IntelliJ IDEA Maven版本:Maven 3.3 或以上 数据库:MySQL 5.7 或以上 此压缩包包含了本毕业设计项目的完整内容,具体包括源代码、毕业论文以及演示PPT模板。 项目配置完成后即可运行,若需添加额外功能,可根据需求自行扩展。 运行条件 确保已安装 JDK 1.8 或更高版本,并正确配置 Java 环境变量。 使用 Eclipse 或 IntelliJ IDEA 打开项目,导入 Maven 依赖,确保依赖包下载完成。 配置数据库环境,确保 MySQL 服务正常运行,并导入项目中提供的数据库脚本。 在 IDE 中启动项目,确认所有服务正常运行。 主要功能简述: 用户管理:系统管理员负责管理所有用户信息,包括学生、任课老师、班主任、院系领导和学校领导的账号创建、权限分配等。 数据维护:管理员可以动态更新和维护系统所需的数据,如学生信息、课程安排、学年安排等,确保系统的正常运行。 系统配置:管理员可以对系统进行配置,如设置数据库连接参数、调整系统参数等,以满足不同的使用需求。 身份验证:系统采用用户名和密码进行身份验证,确保只有授权用户才能访问系统。不同用户类型(学生、任课老师、班主任、院系领导、学校领导、系统管理员)具有不同的操作权限。 权限控制:系统根据用户类型分配不同的操作权限,确保用户只能访问和操作其权限范围内的功能和数据。 数据安全:系统采取多种措施保障数据安全,如数据库加密、访问控制等,防止数据泄露和非法访问。 请假审批流程:系统支持请假申请的逐级审批,包括班主任审批和院系领导审批(针对超过三天的请假)。学生可以随时查看请假申请的审批进展情况。 请假记录管理:系统记录学生的所有请假记录,包括请假时间、原因、审批状态及审批意见等,供学生和审批人员查询。 学生在线请假:学生可以通过系统在线填写请假申请,包括请假的起止日期和请假原因,并提交给班主任审批。超过三天的请假需经班主任审批后,再由院系领导审批。 出勤信息记录:任课老师可以在线记录学生的上课出勤情况,包括迟到、早退、旷课和请假等状态。 出勤信息查询:学生、任课老师、班主任、院系领导和学校领导均可根据权限查看不同范围的学生上课出勤信息。学生可以查看自己所有学年的出勤信息,任课老师可以查看所教班级的出勤信息,班主任和院系领导可以查看本班或本院系的出勤信息,学校领导可以查看全校的出勤信息。 出勤统计与分析:系统提供出勤统计功能,可以按班级、学期等条件统计学生的出勤情况,帮助管理人员了解学生的出勤状况
基于STM32的简易信号发生与测量装置项目源码+文档说明.zip,个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易信号发生与测量装置项目源码+文档说明.zip基于STM32的简易
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值