AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%

当前顶尖AI模型是否真能“看懂”物理图像?

全谱系多模态物理推理新基准来了,结果SO**TA级模型准**确率都不足55%

新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。

内容涵盖经典与现代物理的各个知识等级和领域,包括从初中到博士资格考试的全谱系多模态物理问题

img

它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出,于近日正式开源

团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。

结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%,暴露出多模态推理的巨大挑战。

团队表示,目前该基准正在ICML 2025 AI for MATH Workshop中开放评估,欢迎学界与工业界的团队来挑战。

img

为什么需要SeePhys?

近年来,数学在大语言模型(LLMs)的推理能力评估中大放异彩,而物理学由于其具有与真实场景的强相关性和更复杂的图像信息,正在多模态测评中得到越来越多的重视。

物理学不仅知识体系庞大、逻辑链条复杂,而且天然地将抽象世界规律与千变万化的视觉图像紧密结合。无论是电路图、受力分析图,还是费曼图等,都挑战了多模态大模型根据图表理解世界本质规律的能力。

现有物理学基准或缺乏视觉组件,或仅覆盖单一的知识层级,难以全面评估模型的物理思维能力。

SeePhys的诞生填补了这一空白,它旨在回答当前的顶尖AI模型是否真的“看懂”了物理图像,并能像人类科学家一样结合图像进行思考。

SeePhys的独特之处在于:

  • 知识层级跨度大:从初中到博士,从经典力学到量子场论,全面覆盖了不同知识阶段和研究领域;
  • 强视觉依赖:根据图表是否包含必要解题信息进行分类,优先选择具有强视觉依赖的问题;
  • 跨模态耦合:纯多模态基准,需同步处理符号公式、几何关系与真实世界建模。

img

具体来看,SeePhys具有以下几个关键属性。

首先是全谱系覆盖

  • 2000道题目+2245张图表,涵盖7大物理领域(经典力学、电磁学、量子物理等);
  • 8个知识层级:初中、高中、奥赛(初级/高级)、本科(低年级/高年级)、硕士、博士资格考试;
  • 21类异构图表:包括电路图、时空曲率图、光电效应示意图等。

其次是不同的视觉富集程度

  • Vision-Essential(75%):图表含解题必需信息(如坐标系数值、电路拓扑、费曼图);
  • Vision-Optional(25%):图表仅辅助说明(如场景示意图)。

还有多模态增强设计

  • 提供纯视觉副本(问题文本与图表融合为单张高分辨率图像);
  • 四种评估模式:文本+图表(TV)、文本+描述(TC)、纯文本(TO)、纯视觉(VO)。

img

实验发现

通过对28个主流模型*(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)*的大规模测试,研究团队总结以下结论:

视觉-文本对齐能力的缺陷:

  • 最佳模型Gemini-2.5-Pro准确率仅54.9%,即使是初中物理题正确率也不及70%。
  • 纯语言模型表现意外接近多模态模型,如DeepSeek-R1(42.2%) vs o3-mini(40.3%),且模型在视觉依赖性较低的问题中准确率远高于视觉信息富集的问题,暴露了当前顶尖MLLM仍存在巨大的视觉-文本对齐问题。
  • 模型对特定图表类型(波动方程图、电路图)存在系统性识别障碍。

img

“看见”对于“思考”的重要性:

  • 对于视觉富集的问题,添加对图像的文本描述和直接输入图文交织问题均相对纯文本问题提升巨大。
  • 即使是非必要性图表也能辅助模型理解问题(如Claude-3.7-Sonnet在Text+Vision条件下相对Vision Only准确率提升30.2%),表明适当的视觉提示能够帮助模型理解问题本质。

img

知识注入显现出边际效应:

  • 较弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于灾难性遗忘现象,在高年级问题上精度下降幅度巨大,而较强模型则下降较为平缓,表明知识注入带来的性能提升已经初步显现边际效应。
  • 当前模型更擅长记忆而非逻辑推理(如高级奥赛题反而比知识考察更深的博资考的准确率更低)。
  • 即使是初中和高中难度的物理题也并未被AI完全解决,物理学对于MLLM依然十分困难。

错误推理模式归纳

研究团队对强模型o4-mini, Gemini-2.5-Pro与弱模型Qwen2.5-VL-3B共同错误的100个样本进行人工分析。

然后,归纳得出了9种错误的推理模式,包括视觉误读、文本误读、建模错误、错误假设、数值计算错误、过度简化、总结错误、过度思考和重复输出。

所有三个模型都表现出明显的建模缺陷*(例如定理和公式误用)*,同时表现出相对较少的文本误读和数值计算错误。

而过度思考和过度简化的错误频率在模型之间存在显著差异,且较小的Qwen2.5-VL-3B出现了高重复输出率(21%)。

误用)*,同时表现出相对较少的文本误读和数值计算错误。

而过度思考和过度简化的错误频率在模型之间存在显著差异,且较小的Qwen2.5-VL-3B出现了高重复输出率(21%)。

img

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》*

1.学习路线图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果大家想领取完整的学习路线及大模型学习资料包,可以扫下方二维码获取
在这里插入图片描述

👉2.大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。(篇幅有限,仅展示部分)

img

大模型教程

👉3.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(篇幅有限,仅展示部分,公众号内领取)

img

电子书

👉4.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(篇幅有限,仅展示部分,公众号内领取)

img

大模型面试

**因篇幅有限,仅展示部分资料,**有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

**或扫描下方二维码领取 **

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员一粟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值