2024-10-18,由西安交通大学和圣母大学的研究人员提出了MultiChartQA,一个新的基准数据集,目的评估多模态大型语言模型(MLLMs)在处理多图表问题时的能力。这个数据集的创建填补了现有基准测试在多图表场景下的空白,对于推动MLLMs在实际应用中的多图表理解能力具有重要意义。
一、研究背景:
多模态大型语言模型在视觉问题回答和图表理解等任务中展现出了令人印象深刻的能力。然而,现有的图表相关工作的基准测试主要集中在单一图表任务上,忽视了从多个图表中提取和整合信息所需的多步骤推理,这在实际应用中是至关重要的。
目前遇到的困难和挑战:
1、现有的基准测试无法覆盖涉及多个图表的复杂场景,如新闻文章和科学文档。
2、MLLMs在处理多个图表时,需要更高级的能力,例如多图像编码、精确信息定位和多步骤推理。
3、缺乏复杂的多图表评估数据,限制了MLLMs在这些高级能力上的进一步发展。
数据集地址:MultiChartQA|多模态学习数据集|视觉问答数据集
二、让我们一起看一下MultiChartQA数据集
MultiChartQA是一个创新的基准数据集,专门设计来评估MLLMs在多图表场景下的理解能力。包含了从多个来源(Arxiv、OECD、OWID和Pew研究中心)收集的多图表文章,设计了四种不同类型的问题,每种问题都与同一篇文章中的多个图表配对。每个问题和答案都经过人工注释,以确保高质量。
数据集特点 :
MultiChartQA包含了655个图表和944个问题,涵盖了直接问题回答、并行问题回答、比较推理和顺序推理四种任务类型。
研究人员可以通过MultiChartQA来评估他们的MLLMs在多图表处理能力上的表现,并通过基准测试来比较不同模型的性能。
基准测试 :
研究者评估了16个主流MLLMs在MultiChartQA上的性能,结果显示与人类相比存在显著的性能差距,突出了多图表理解的挑战性。
提供了一个多图表问题的示例,要求比较两个优化器在特定条件下的性能。该模型需要跨不同的图表执行多跳推理,以得出正确答案。这种情况在实际应用程序中经常遇到。
Multi-ChartQA 包含四种类型的 QA 任务,涵盖了跨多个图表理解和推理的四种关键能力。我们用方框和圆圈突出显示回答每个问题的关键信息位置。箭头表示不同图表中的多步骤推理过程。
MultiChartQA 的统计数据。我们分析图表、问题和答案的特征。使用 GPT-4o 分词器测量问题和答案的唯一标记和长度。
问题类别的详细图示。MultiChartQA 具有四种不同类型的问题,形式、内容和难度各不相同。为简洁起见,类别名称是缩写的。结构:结构,组件:比较,序列:顺序。
MultiChartQA 上的评估结果。粗体值表示每个类别中的最佳性能:闭源模型或开源模型。由于空间限制,问题类别和模型名称会缩写。结构: 结构, 续: 内容, 序列: 顺序, LLaVA-OV-7B: LLaVA-OneVision-7B, ChartInstruct: ChartInstruct-LLama2
14 个 MLLM 的准确性在三个设置下进行评估:原始设置、合并图表和无思维链推理。大多数模型在处理合并图表或不执行 CoT 进行回答时表现出性能下降。
我们在两种条件下评估了 14 个 MLML 的性能:有和没有图表参考,以及提供所有图表或仅提供指定图表。粗体值表示所有模型中的最佳性能。由于空间限制,实验设置缩写如下:w/ ref.:有参考,w/o ref.:无参考,全部:所有图表,规格:仅指定图表。
三、展望MultiChartQA数据集应用:
比如,我现在正在研究一篇关于农业产量和气候变化之间关系的科学论文。
这篇论文里,有一大堆图表,有的显示了过去几十年里不同地区的玉米产量,有的展示了同期的降雨量变化,还有的标出了温度的波动。我要想弄明白,比如降雨量和温度变化对玉米产量到底有啥影响,以前我得自己在那吭哧吭哧地分析。
我得拿出我那褶皱的厚厚的笔记本,一边看降雨量的图,一边看温度的图,再一边看玉米产量的图,然后自己脑子里盘算:“嗯,2008年那会儿,这个地区的降雨量特别大,但是温度挺高的,玉米产量好像没怎么增加,这是为啥呢?” 我可能还得去查查那时候是不是有什么病虫害,或者土地条件是不是变差了。
现在有了MultiChartQA这个神器,那可是不一样了。
我就跟AI说:“嘿,AI,你帮我分析一下,2008年这个地区的降雨量和温度对玉米产量有啥影响?” 然后AI就开始忙活了,它会把这几个图表放在一起比较,然后告诉你:“哦,原来那年虽然降雨量挺大,但是温度太高了,可能影响了玉米的授粉,所以产量没上去。”
我再进一步问AI:“那这几年的气候变化对整个地区的玉米产量有啥长期影响吗?” AI就能帮我分析更多年份的数据,找出趋势,告诉我:“我看了一下,过去十年里,虽然降雨量总体上是增加的,但是温度上升导致了干旱日数的增加,这可能对玉米产量造成了负面影响。”
有个这个超级助手,不仅帮我看懂了每个图表,还帮我把这些图表里的数据联系起来,分析出了它们之间的复杂关系。我就不用自己在那费老大劲去对比数据,推理关系了,AI直接给我答案,我就能更高效地完成你的研究。
而且,这个AI还能帮我预测未来的情况。我问它:“如果未来几年温度继续上升,我们的玉米产量会咋样?” AI就能根据历史数据和趋势,给我一个预测结果。
有了智能系统的帮助,让我能把时间花在更有创造性的思考上,而不是埋头苦干地处理数据。这不仅仅是提高了效率,更是让我的研究工作提升了一个档次,让我能更快地发表我的研究成果,给农业科技领域带来新的见解。