QVQ-72B通义千问视觉推理模型:简评与使用

       通义千问团队刚刚发布了QVQ-72B-Preview,这是一个专注于增强视觉推理能力的模型,可以理解为视觉版的QWQ。

QVQ官方介绍链接:QVQ: 更睿智地看世界 | Qwen

高通智匠MindCraft AI官网:高通智匠MindCraft AI官网

   他们在四个数据集上评估QVQ-72B-Preview

  • MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。
  • MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
  • MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于MathVista具有更多的问题多样性和学科广度。
  • OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的8,476个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程

      在表格中对比的有gpt4o,claude3.5 sonnet这样一些主流的顶级模型,包括o1,是正式版的o1,不是preview版本。在指标上对比可圈可点吧,貌似在奥数题上还不如gpt4o。

       另外我们可以看到在官网上有几个题目示例,都是涉及到图片的多模态,包括图表,化学,几何等等。每个题目解题的过程都很详细。大家可以自己上官方链接看具体示例。

       现在大家可以在高通智匠(MindCraft AI)上去使用QVQ-72B-Preview这个模型,也可以在开发者平台上调用API。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值