南大院士谭铁牛 | 首个多模态统一大模型综合评测基准MME-Unify问世。

南大院士谭铁牛 | 首个多模态统一大模型综合评测基准MME-Unify问世。

原创 AcademicDaily AcademicDaily 2025年04月08日 12:00 北京

当GPT-4o可以实时解读视频画面,当Gemini 2.0 Flash能瞬间生成高清图像,我们是否真正了解这些多模态大模型的极限?

现有评测体系在理解、生成、混合推理等能力的交叉验证上存在明显断层。

直到今天,中国科学院、北大、南大等机构联合推出​​MME-Unify​​,首次建立统一评测标准!

🔥 核心发现速览:

✅ GPT-4o理解任务封王(87.6分),但生成质量竟不敌Gemini 2.0 Flash。

✅ 国产模型MIO-Instruct视频生成惊艳,逼真度超专业视频模型。

✅ 所有模型在"几何题画辅助线"任务全军覆没,混合推理成最大短板。

✅ 开源模型DeepSeek-Janus-Pro生成质量仅5.88分,暴露技术代差。

图片

图片

【论文链接】https://arxiv.org/pdf/2504.03641

源码见文末

1

摘要

统一多模态大语言模型(UMLLMs)因其能够无缝集成生成和理解任务而备受关注。

然而,现有研究缺乏统一的评估标准,往往依赖孤立的基准测试来评估这些能力。

此外,当前的工作通过案例研究突出了“混合模态生成能力”的潜力,例如在图像中生成辅助线以解决几何问题,或在生成相应图像之前对问题进行推理。

尽管如此,目前尚无标准化的基准测试来评估模型在这些统一任务上的表现。

为了填补这一空白,提出MME-Unify,也称为MME-U,这是首个旨在评估多模态理解、生成和混合模态生成能力的基准测试。

对于理解和生成任务,从12个数据集中精心挑选了各种任务,统一了它们的格式和指标,以开发标准化的评估框架。

对于统一任务,设计了五个子任务,以严格评估模型的理解和生成能力如何相互增强。

对包括Janus-Pro、EMU3和Gemini2-Flash在内的12个U-MLLM的评估表明,这些模型仍有显著的改进空间,特别是在指令遵循和图像生成质量等方面。

2

背景

U-MLLMs在处理混合模态输入和输出方面表现出色,能应对更广泛的复杂任务。

像GPT-4o和Gemini2.0Flash等闭源U-MLLMs展现出强大的生成能力,在指令理解和图像创作方面令人印象深刻。

但这种多功能性也给全面评估其能力带来挑战,主要存在两个关键问题:一是缺乏统一的评估标准,现有研究常依赖孤立基准测试。

二是虽有研究通过案例展示了“混合模态生成能力”的潜力,但尚无标准化基准测试来评估模型在统一任务上的表现。

3

贡献

  1. 提出MME-Unify(MME-U),这是首个用于评估多模态理解、生成以及混合模态生成能力的基准测试。

  2. 从12个数据集中整理出多样化任务,统一格式和指标,构建了标准化评估框架。

  3. 设计五个子任务,严格评估模型理解和生成能力的相互增强作用,通过对12个U-MLLMs的评估,发现模型在指令遵循和图像生成质量等方面有改进空间。

4

技术方案

图片

数据任务整合:从 12 个数据集中精心挑选任务,涵盖多模态理解、生成及统一任务,具体任务和数据集采样统计见上表。

图片

评估指标设计

理解得分:理解任务包含三个子任务T={SIPU, MITIU, VPU},通过计算每个子任务的准确率,再取算术平均值得到理解得分,见图 6 理解任务的数据样本示例。

生成得分:生成任务包含六个子任务T={CIVG, TVG, VP, FIR, TIE, TIG},对各子任务采用不同指标计算得分。

如 CIVG 和 TVG 子任务得分是 FVD、FID 和 CLIPSIM 归一化得分的平均值,整体生成得分是六个子任务得分的算术平均值,见图 7 生成任务的数据样本示例。

图片

统一得分:统一任务包含五个子任务T={IEE, CSQ, AL, SD, VCoT},对于 IEE、CSQ、AL、SD 子任务,通过计算文本和图像回答的准确率来得到整体准确率;

对于 VCoT 子任务,根据模型在迷宫导航任务中动作、坐标和图像预测的准确率计算整体指标,统一得分是所有子任务准确率的算术平均值。

MME-U 得分:MME-U 得分是理解得分、生成得分和统一得分的算术平均值。

5

实验结果

图片

生成能力方面:多数U-MLLMs在生成能力上存在不足。

在细粒度图像重建任务中,GILL、SEED-LLaMA和MIO-Instruct能较好捕捉结构细节,但MiniGPT-5和Anole表现不佳(见图18)。

图片

在文本引导图像编辑任务中,SEED-LLaMA和MIO-Instruct生成图像与源图像较相似,但执行编辑指令有欠缺,Gemini2.0-flash-exp表现较好(见图19)。

图片

在条件图像到视频生成和文本到视频生成任务中,U-MLLMs在生成连贯视频序列上存在困难(见图20、图21)。

图片

统一任务方面:多数U-MLLMs难以生成符合指令或参考图像的图像,且指令理解存在缺陷。

如在图像编辑与解释任务中,MiniGPT-5生成图像与源图像无关。

在常识问答和SpotDiff任务中,MiniGPT-5和SEED-LLaMA生成图像与选项不相关。

图片

在辅助线任务中,Anole无法正确绘制辅助线,GILL和MiniGPT-5生成内容与原图像脱节(见图22)。

【源码链接】

https://github.com/MME-Benchmarks/MME-Unify

图片

END

朋友们!

搞学术、做研究,信息跟不上可太愁人啦!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值