QVQ-72B通义千问视觉推理模型：简评与使用

高通智匠MindCraft Al

于 2024-12-26 17:07:55 发布

阅读量797

点赞数 8

文章标签：人工智能 gpt ai chatgpt AIGC 视觉检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85549225/article/details/144748643

版权

通义千问团队刚刚发布了QVQ-72B-Preview，这是一个专注于增强视觉推理能力的模型，可以理解为视觉版的QWQ。

QVQ官方介绍链接：QVQ: 更睿智地看世界 | Qwen

高通智匠MindCraft AI官网：高通智匠MindCraft AI官网

他们在四个数据集上评估QVQ-72B-Preview

MMMU：一个大学级别的多学科多模态评测集，旨在考察模型视觉相关的综合理解和推理能力。
MathVista：一个数学相关的视觉推理测试集，评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
MathVision：一个高质量多模态数学推理测试集，来自于真实的数学竞赛，相比于MathVista具有更多的问题多样性和学科广度。
OlympiadBench：一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含来自奥林匹克数学和物理竞赛的8,476个问题，包括中国高考。每个问题都附有专家级别的注释，详细说明了逐步推理的过程

在表格中对比的有gpt4o,claude3.5 sonnet这样一些主流的顶级模型，包括o1，是正式版的o1，不是preview版本。在指标上对比可圈可点吧，貌似在奥数题上还不如gpt4o。

另外我们可以看到在官网上有几个题目示例，都是涉及到图片的多模态，包括图表，化学，几何等等。每个题目解题的过程都很详细。大家可以自己上官方链接看具体示例。

现在大家可以在高通智匠（MindCraft AI）上去使用QVQ-72B-Preview这个模型，也可以在开发者平台上调用API。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。