腾讯混元团队提出MM-IQ:多模态大模型推理评估新基准

a151a6aa8b1077987acbd916d40d7b5c.gif

随着多模态大模型(Large Multimodal Models, LMMs)的快速发展,其在语言、视觉等多领域展现出强大的理解能力。然而,近期 o1, R1, o3-mini 等推理模型的出现不禁使人好奇:最先进的 LMMs 是否也和 R1 一样具备类似人类的推理能力?

为了回答这一问题,腾讯 Hunyuan 团队提出了一个新的多模态推理基准测试框架——MM-IQ,旨在系统地评估多模态模型的抽象推理和逻辑思维能力。

c3176838c4b3d73e95d7ad852a03a2e7.png

论文标题:

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

论文地址:

https://arxiv.org/pdf/2502.00698

代码仓库:

https://github.com/AceCHQ/MMIQ/tree/main/

项目主页:

https://acechq.github.io/MMIQ-benchmark/

数据集地址:

https://huggingface.co/datasets/huanqia/MM-IQ

效果展示

24f5234379078169ebe1a2a0c3c340b3.png

▲ 图1.1:多模态模型以及人类在 MM-IQ 基准测试中的表现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值