通义千问团队刚刚发布了QVQ-72B-Preview,这是一个专注于增强视觉推理能力的模型,可以理解为视觉版的QWQ。
QVQ官方介绍链接:QVQ: 更睿智地看世界 | Qwen
高通智匠MindCraft AI官网:高通智匠MindCraft AI官网
他们在四个数据集上评估QVQ-72B-Preview
- MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。
- MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
- MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于MathVista具有更多的问题多样性和学科广度。
- OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的8,476个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程
在表格中对比的有gpt4o,claude3.5 sonnet这样一些主流的顶级模型,包括o1,是正式版的o1,不是preview版本。在指标上对比可圈可点吧,貌似在奥数题上还不如gpt4o。
另外我们可以看到在官网上有几个题目示例,都是涉及到图片的多模态,包括图表,化学,几何等等。每个题目解题的过程都很详细。大家可以自己上官方链接看具体示例。
现在大家可以在高通智匠(MindCraft AI)上去使用QVQ-72B-Preview这个模型,也可以在开发者平台上调用API。