腾讯混元团队提出MM-IQ：多模态大模型推理评估新基准

PaperWeekly

于 2025-02-27 12:37:35 发布

阅读量731

点赞数 19

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/145917006

版权

随着多模态大模型（Large Multimodal Models, LMMs）的快速发展，其在语言、视觉等多领域展现出强大的理解能力。然而，近期 o1, R1, o3-mini 等推理模型的出现不禁使人好奇：最先进的 LMMs 是否也和 R1 一样具备类似人类的推理能力？

为了回答这一问题，腾讯 Hunyuan 团队提出了一个新的多模态推理基准测试框架——MM-IQ，旨在系统地评估多模态模型的抽象推理和逻辑思维能力。

论文标题：

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

论文地址：

https://arxiv.org/pdf/2502.00698

代码仓库：

https://github.com/AceCHQ/MMIQ/tree/main/

项目主页：

https://acechq.github.io/MMIQ-benchmark/

数据集地址：

https://huggingface.co/datasets/huanqia/MM-IQ

效果展示

▲ 图1.1：多模态模型以及人类在 MM-IQ 基准测试中的表现

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。