南加大团队提出MARVEL:基于认知科学的多维抽象视觉推理基准测试

82e06826c71aba3bb78e0a99d873ec2f.gif

b68239470e14833e014bef25e1be15b1.png

研究背景与挑战

近年来,多模态大语言模型(MLLMs)在视觉推理领域取得了显著进展,展现出强大的视觉问答和视觉常识推理能力。然而,这些模型是否真正具备抽象视觉推理(AVR)能力仍是一个悬而未决的问题。

类似于解决数独谜题,抽象视觉推理需要在特定任务配置中识别和应用控制输入形状的高级模式。但现有的评估方法存在明显不足:评估范围过于局限,往往只包含简单的推理模式和基础图形;同时评估方法过于简单,无法有效区分模型的视觉感知能力和推理能力。

f29fdaf03b881dde2120f23600684c91.png

MARVEL数据集的创新设计

为解决这些问题,研究团队提出了 MARVEL 基准测试集。这个包含 770 个高质量测试样例的数据集建立在人类认知科学的基础之上,特别是核心知识系统理论。MARVEL 的设计突破了传统评估的局限,提供了多维度的测试框架,包括六种核心知识模式、多样的几何和抽象形状输入,以及五种不同的任务配置方式。

4c685a9c811750299a5b641fee239e4b.png

论文标题:

MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning

论文地址:

https://arxiv.org/pdf/2404.13591

代码地址:

https://github.com/1171-jpg/MARVEL_AVR

在具体实现上,MARVEL 的任务配置涵盖了序列、双行、矩阵、分组和重组等多种形式。这种多样化的配置设计使得评估更加全面和深入。例如,序列格式以 1×n 的线性方式排列面板,而矩阵格式则采用 3×3 的布局,可以同时测试行向和列向的模式识别能力。特别值得一提的是重组格式,它专门用于评估模型对 3D 几何的理解能力。

88bc00de9cdd44a61129801e2fe23a0e.png

基于认知科学的知识体系

MARVEL 的一个重要特点是其建立在扎实的认知科学理论基础之上。该数据集围绕三类核心知识展开:对象核心知识关注物体的时空运动和接触特性;数字核心知识测试对小数字的抽象表示和比较能力;几何核心知识则评估对环境几何特征的理解能力。每类核心知识又细分为两种具体模式,从而形成了一个全面的评估体系。

4e79d322f5364b48c9b4fd83ab4a1cd3.png

实验评估与关键发现

研究团队对 10 个代表性的 MLLMs 进行了全面测试,包括 GPT-4、Gemini、Claude3 等闭源模型和 LLaVA-1.5、InstructBLIP、Fuyu 等开源模型。实验采用了零样本和少样本两种设置,并辅以提示工程优化。

实验结果令人深思:所有模型在 MARVEL 上的表现都接近随机水平,与人类表现存在约 40% 的显著差距。其中,闭源模型的平均表现(25.7%)略优于开源模型(24.0%)。

更深入的分析揭示了一个关键问题:模型的视觉感知能力可能是制约其表现的关键瓶颈。在提供准确的文本描述后,一些闭源模型(如 GPT-4V)展现出不错的推理能力,但其整体表现仍受限于较弱的视觉感知能力。这一发现表明,改进模型的视觉感知能力可能是提升其抽象视觉推理能力的关键。

7ca98284cf9d68f3c48b4c4ca82f385d.png

未来展望与启示

MARVEL 的研究成果为我们指明了未来的研究方向。首先,提升模型的视觉感知能力是当务之急;其次,增强模型对抽象形状的理解和空间关系的推理能力也很重要。此外,研究团队也承认目前的工作存在一些局限性,如认知科学研究本身仍在不断发展,评估方式可能需要进一步优化等。


总的来说,MARVEL 不仅揭示了当前 MLLMs 在抽象视觉推理方面的局限,也为未来的改进提供了清晰的方向。这个基于认知科学的多维度评估框架,将推动抽象视觉推理研究的深入发展,为实现真正的视觉智能迈出重要一步。

93bf0c92bed9cfcbe0f4e6f2308292ec.png

MARVEL 中的抽象视觉推理难题:通过两行任务配置展现几何图形中由数学模式控制的元素数量变化。AVR 问题关注最终答案,而感知问题聚焦单个选项细节或整体特征。例如,左侧黑色元素逐步递增 1,右侧白色元素在第一面板中的数量等于第二和第三面板之和。

4f300264f1093324ed979235bd2352f5.png

在零样本推理任务中,各 MLLM 在 MARVEL 上的准确率:两种指标包括 (所有粗粒度感知问题的组准确率,模型需正确回答三道问题)和 (结合粗粒度和细粒度感知问题的组准确率),以及 AVR 问题的准确率。

678e4dc1870d3b20c79972b428b541c4.png

增加文本描述后,闭源大模型的表现可以获得显著提升,这一结果进一步说明基础视觉感知能力是当前多模态大模型能力的一大瓶颈。

更多阅读

4880e16bcc4f7ec6724f310216491ad4.png

9744ec7004902729bdd2cc28079a0515.png

d89d325bd4ca6449db25ffd8936ba95d.png

c1fc51a35af9a0b731bc8994b425ba28.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

1a169d5fcb65a3abb84eac0bc506cf93.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

6ce471def9e28a2f2ab56aafbf186152.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值