司南评测-CSDN博客

原创头部模型竞争胶着，能力均衡性成制胜关键丨多模态模型5月最新榜单揭晓

多模态推理维度中，SenseNova-6-7-Flash-Alpha 以 86.9 分位列第一，GPT-5.5（high）以 86.2 分位列第二，Qwen3.7-Plus 以 84.4 分位列第三，Gemini-3.1-Pro-Preview 与 Qwen3.5-397B-A17B 分别以 83.8 分和 82.5 分位列第四、第五。它在通用感知维度以 73.0 分位列第一，在信息图形感知维度以 80.0 分位列第二，在多模态推理维度也达到 82.5 分，展现出非常均衡的综合能力。

2026-06-11 20:47:07 352

原创 GPT领跑，头部模型“错位竞争”，强Agent能力成下一战场丨大语言模型4月最新榜单揭晓

大模型技术在全球范围内加速演进，智能体能力不断深化，从多步执行走向多智能体协同，从辅助工具走向独立执行者，开始在跨平台、跨应用的真实场景中端到端地完成任务；推理能力在数学、科学等高难度任务上持续突破，可靠性进一步提升。模型的自进化能力亦在涌现，能够在执行中主动调整策略并迭代优化。长线程任务能力的增强，让模型得以在大型工程中稳步推进，承担起高度复杂的生产力任务。司南持续关注全球大模型发展动态，

2026-05-14 11:15:16 539

原创 GenEditEvalKit：把图像生成评测的 “麻烦事”，一次性解决了

从事图像生成与编辑模型研发的小伙伴们，你们是否也经历过「评测」这些“麻烦事”：新模型刚完成迭代，想跑几个主流 benchmark 验证效果，却要为每一组「模型 × benchmark」单独写一套适配脚本；不同 benchmark 的环境依赖互相打架，配环境配到深夜；想并行跑多个任务提升效率，又要花大量精力改写调度逻辑；好不容易跑完所有任务，生成的图像、评测指标、运行日志散落在各个文件夹，想做一次横向对比，要翻遍整个磁盘目录。上述这些“麻烦事”，来自上海人工智能实验室的研究团队在研发。

2026-04-27 11:35:05 255

原创 OpenClaw大考！WildClawBench用60道题，把 “龙虾”AI打回原形

最近几个月，越来越多的开发者开始“养龙虾”：给它加技能、写记忆、调人格，希望它能帮自己处理现实任务。但面对日常工作和生活场景，我们养的“龙虾”，真的可以端到端把事情做完吗？它的“大脑”该用哪个模型，效果最好、性价比最高？这恐怕是所有“养虾”用户都关心的问题。而回看过去一年的各类 Agent Benchmark，大多仍聚焦在“单点能力”的评测，但真实任务更像一场长跑：AI 需要跨模态理解信息，在动态环境中选择工具，并不断处理意料之外的错误。真正关键的，不是某一步是否正确，而是能否完成端到端的闭环交付。为填补这

2026-04-14 11:35:34 549

原创 Gemini-3.1-Pro-Preview登顶，国产模型表现亮眼丨多模态模型2月最新榜单揭晓

值得注意的是，开源模型 Ovis2.6-30B-A3B 以 54.37 分排名第五，Step3-VL-10B 以 51.88 分排名第六，两者均为参数量相对较小的开源模型（30B 和 10B），却在推理维度超越了多款大参数闭源模型，这表明推理能力的提升并不完全依赖于参数规模的扩展。Claude-Opus-4-6 以 91.97 分夺冠，Kimi-k2.5（90.05 分）和 SenseNova-V6-5-Pro（89.67 分）分列第二、三名，三者在 2.3 分的极窄区间内展开了激烈角逐。

2026-03-12 20:44:54 523

原创 Gemini-3-Pro-Preview登顶，大模型迈入Agent元年丨大语言模型1月最新榜单揭晓

进入 2026 年，全球大模型技术持续加速演进，新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标，转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力，在编程、推理、工具调用与信息检索等关键方向不断提升，全面增强解决实际问题的能力。与此同时，中国大模型在全球舞台上持续受到关注，越来越多模型在海外社区引发热议，展现出中国在大模型日益增强的技术实力与创新活力。司南持续关注大模型的发展动态，近期针对国内外主流大语言模型进行了全面评测，现公布！

2026-02-12 18:25:11 1587

原创当模型开始“记住”评测，如何用动态数据对抗污染？（上篇）

无论是安全评测、通用能力评测，还是面向科学推理的专业基准，一次性构建的静态数据集都难以在模型快速迭代的背景下长期保持区分力。模型可能并非真正理解了问题，而是学会了如何应对固定测试。因此，来自尝试从“数据层”出发，探索一种能够持续更新、对抗数据污染的动态评测路径。

2026-01-30 16:23:16 993

原创每日 AI 评测速递来啦（1.23）

一个面向生成科研综述的全新评测基准，旨在全面评估生成综述的学术价值，主要从三大维度进行评估：信息价值、学术交流价值和研究指导价值。一个用于系统评估视觉-语言模型任务进度推理能力的基准，关注模型在局部观测下对长时序任务推进程度的判断能力。一个面向高分辨率图像质量评估场景下，细粒度局部退化分析的开创性评测基准。司南·Daily Benchmark 专区今日上新！

2026-01-23 19:10:13 57

原创每日 AI 评测速递来啦（1.22）

一个基于高质量计算机科学论文审稿-回复问答的大规模细粒度问答基准，用于评估模型在学术情境下理解并回答为什么（why）、什么（what）、如何（how）类问题的能力。一个面向真实电商场景的实时、全面且具有挑战性的时尚图像检索基准，包含来自真实线上电商网站的最新商品图像以及AI 生成的时尚图像。首个面向文本主题分类的多语言开放集学习与发现基准，包含来自 12 种语言的 96 万条数据样本。司南·Daily Benchmark 专区今日上新！

2026-01-22 18:56:28 63

原创每日 AI 评测速递来啦（1.21）

一个面向深度研究智能体的多模态基准，包含来自 21 个领域的 140 个专家设计任务，每个任务提供图文组合，用于评估模型的多模态理解能力以及基于引用的报告生成能力。一个用于评估真实软件开发中领域专化方法的新型基准，涵盖 6 个新兴领域，包含 11 个软件框架和 25 个项目，配备了精心构建的知识语料库，并提供多粒度评测任务。一个跨文化推理基准，包含 4,900 条平行句子和 1,098 个独特的文化特定项目，覆盖三类不同的推理任务，并配套相应的评测指标。司南·Daily Benchmark 专区今日上新！

2026-01-21 17:22:25 131

原创从短期交易到长期配置：覆盖11个行业的大模型投资顾问评测丨金融评测

相比之下，稳定的行业，如消费防御型、能源和公用事业行业，则表现出相对高的预测得分，这得益于其需求弹性较低、监管透明，并且与宏观经济的强相关性。收集了 110 支各行业代表公司的股票的历史数据，包含经典的开盘价、收盘价、最高价、最低价、交易量，为大模型提供了最基础的预测数据。搜集网络上与每只股票相关的新闻，提供外部的市场信息，反映宏观市场中对股票的看法，助力大模型理解市场现状，做出与当前更相符的判断。评价短、中、长三个时段的价格预测能力，为短期、中期、长期持有的投资策略者提供有针对性的参考。

2026-01-21 10:37:30 1140

原创会背书 ≠ 懂生命！LifeOmni榜单揭示大模型生命科学实战短板 | 生命科学评测

全员“行动力”匮乏：观察榜单可以发现，绝大多数模型在 Domain Literacy（专业素养）上的得分都在 0.7-0.8 甚至更高，但在 Agent Ability（智能体能力）的 Action Accuracy（行动准确率）上，却断崖式下跌至 0.3 以下。然而，当我们将这些通用模型从简单的知识考试引入真实的科研探索与临床决策场景时，一个被长期掩盖的真相逐渐浮出水面：高分的理论知识储备，并不等同于合格的科学实践能力。Kimi-K2 同样在保持高推理能力的同时，守住了 0.920 的安全高分。

2026-01-20 10:47:15 492

原创每日 AI 评测速递来啦（1.19）

一个专门面向人体姿态编辑的评测基准，包含来自 17 个最先进编辑模型的 1,700 个标准化样本，并同时提供真实性标注与多维度质量评分，从而支持更全面的评估。首个标准化、公开可用的吴语语音处理评测基准，系统覆盖了自动语音识别、吴语到普通话翻译、说话人属性预测、语音情感识别、语音合成以及指令驱动语音合成等多项任务。一个用于评估智能体规划能力的综合性基准，面向空间规划问题这一类高风险任务。司南·Daily Benchmark 专区今日上新！

2026-01-19 18:21:57 82

原创每日 AI 评测速递来啦（1.15）

旨在全面评估当前最先进的 MLLMs 在全景式胃肠道内镜临床流程中的表现，并分析其相对于人类内镜医师的临床实用价值。超高分辨率推理基准，用于评估 MLLMs 在极端高视觉信息密度场景下的推理能力。一个围绕通用性、可量化性与可靠性三大核心原则构建的幻灯片生成评测基准。2025 司南年度最受欢迎评测集评选活动正式火热进行中~司南·Daily Benchmark 专区今日上新！，让真正有价值的评测工作被更多人看见。

2026-01-15 19:08:07 71

原创每日 AI 评测速递来啦（1.14）

首个面向智能体场景的多模态成对情境完整性评测基准，由源自同一视觉输入的正负样本对构成，并在三个层级展开：规范性的 Seed 判断、富上下文的 Story 推理，以及可执行的智能体行为 Trace。一个面向混合动机博弈的多阶段评测基准，并配套引入了一套过程感知的评估框架，可在以下三个模块上开展协同分析：行为轨迹分析；一个轻量级的并行问题评测基准，用于评估大语言模型在 32 种语言上的语言强制行为，从而支持对多语言 steering 方法进行系统化比较。，让真正有价值的评测工作被更多人看见。

2026-01-14 20:29:39 116

原创每日 AI 评测速递来啦（1.13）

多轮多模态上下文安全评测基准，基于真实图像与多轮对话，围绕两种互补的风险设置来评估 MLLMs 的上下文安全性：升级式风险与语境切换风险。首个将临床医生视线作为“认知光标”来评估模型意图理解能力的评测基准，覆盖外科手术、急诊模拟与影像诊断解读等多种临床场景。司南·Daily Benchmark 专区今日上新！

2026-01-13 19:07:56 74

原创每日 AI 评测速递来啦（1.12）

首个系统性的学术海报编辑评测基准，包含 514 条编辑指令，并基于操作类型、任务难度与抽象层级等多维分类体系进行标注，结合有参考与无参考两种构建策略，以确保任务的真实度与多样性。首个以美国专利商标局专利审判与上诉委员会（PTAB）真实裁决案件为核心构建的评测基准，用于系统评估大语言模型在专利法律领域进行结构化法律推理的能力。一个用于评估多模态与视觉-语言模型在真实 AEC 图纸理解能力上的评测基准，涵盖两类互补的应用场景：目标计数任务和图纸支撑的文档问答任务。

2026-01-12 19:01:15 67

原创每日 AI 评测速递来啦（1.8）

一个用于在真实新闻语境下评估大语言模型金融虚假信息识别能力的评测基准，以段落级别为评测粒度，刻画金融新闻中语义由分散线索共同构成的上下文复杂性。一个用于在无像素级输入条件下评估大语言模型空间智能表现的全新评测基准，包含 3,800 余条专家标注样本，覆盖五大类任务与 17 个子任务。首个面向多语言硬件代码仓库级补全任务的评测基准，聚焦于代码补全任务，覆盖三种主要的硬件设计编码风格。司南·Daily Benchmark 专区今日上新！

2026-01-08 19:33:18 140

原创每日 AI 评测速递来啦（1.7）

首个面向大语言模型的大规模功能影像评测基准，包含来自 9,732 项多中心、多示踪剂 PET 检查的 52,308 条分层问答样本。一个面向多领域、多模态、多维度指标的统一评测基准，用于系统评估多智能体辩论（MAD）方法的有效性、鲁棒性与效率。一个面向时间序列的时空推理基准，涵盖病因推理、实体识别、相关性推理和上下文预测等核心任务。司南·Daily Benchmark 专区今日上新！

2026-01-07 19:19:32 349

原创通用安全 ≠ 行业可用！领域安全榜单揭示大模型垂域隐性风险 | 安全评测

从 Shell 基准的风险挖掘，到 MENTOR 框架的自进化防御，研究团队致力于为大模型进入垂直行业应用建立一套可量化的安全标准。然而，教育、金融和管理仅仅是起点。随着 AI 深入医疗、法律等更多核心领域，隐性风险的形态将更加复杂。未来的研究将重点关注如何让模型不仅学会遵守规则，更能理解规则背后的价值观，最终实现从外挂式防御向内化式安全的跨越。司南将持续关注并跟进 Shell 基准的迭代更新，欢迎社区开发者共同参与评测与建设！

2026-01-07 10:45:40 1194

原创每日 AI 评测速递来啦（1.6）

首个系统性评测意图驱动空间推理能力的开放世界基准，要求模型将物理事件与其背后的人类目的相联系。用于系统评测大语言模型在多语言医疗任务中的性能，涵盖问答、摘要、医学信息抽取等任务。一个多用途的 4D 空间智能基准，用于全面评估 MLLMs 的 4D 空间推理能力。司南·Daily Benchmark 专区今日上新！

2026-01-06 18:22:33 179

原创每日 AI 评测速递来啦（1.5）

一个标准化的闭环框架，将GPU内核生成、基准评测与实际部署有机连接起来，用于系统评估 LLM 智能体在 GPU 编程中的性能表现与局限性。通过一个严格设计的四阶段构建流程，用于系统评估 LLM 在多组学分析中的两项核心能力：生物分子相互作用推断以及端到端多组学通路机制解析。一个轻量级、开放的评测基准，面向日英翻译系统“好译文如何分优劣”的问题，系统评估礼貌性、语域与含蓄表达等细粒度差异。司南·Daily Benchmark 专区今日上新！

2026-01-05 18:35:34 136

原创司南“六位一体”评测体系的一年演进

过去一年，通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互，系统复杂性与潜在风险同步上升。在这一背景下，如何构建科学、公正、可复现的评测体系，持续刻画 AI 能力边界、引导技术健康演进，成为支撑人工智能高质量发展的关键基础设施问题。作为由上海人工智能实验室打造的创新开放评测体系，在过去一年中持续演进，评测范围从扩展至六大核心版块，构建起 “六位一体”的全景评估范式这一年，司南持续输出评测结果与行业观察，累计评测大语言模型多模态模型，发布近。

2025-12-31 18:54:44 942

原创每日 AI 评测速递来啦（12.30）

一个专门为评估工具集成推理智能体设计的基准，涵盖多模态、多步推理任务，用于测试智能体在自主工具调用与复杂决策场景下的表现。一个面向多模态大模型真实且高难度多视角场景的空间推理评测基准，涵盖 6 类任务、共 100 万条问答对。一个面向金融、医疗、法律与科技等高风险应用场景的专业语音评测基准。司南·Daily Benchmark 专区今日上新！每日 AI 评测速递来啦（12.30）

2025-12-30 18:32:58 341

原创每日 AI 评测速递来啦（12.29）

一种全新的大模型幻觉检测基准，将幻觉划分为智能幻觉与缺陷幻觉，用于弥补现有基准难以应对多样化的科学任务，以及难以在创造性与准确性之间取得平衡。一个面向多模态大模型感知层级图像理解的统一评测框架，覆盖。司南·Daily Benchmark 专区今日上新！

2025-12-29 18:35:36 213

原创最强推理模型GPT-5/Gemini 3 Pro都束手无策？空间智能领域“Humanity‘s Last Exam“来了

面向。

2025-12-29 16:45:50 1301

原创每日 AI 评测速递来啦（12.26）

一个用于评估多模态推理能力的新型评测基准，其核心特点是要求模型在推理过程中交替、精细地关注图像中的关键视觉细节。一个用于严格评测长视频生成中历史记忆保留能力的基准，重点衡量模型在长期场景一致性与上下文记忆方面的表现。司南·Daily Benchmark 专区今日上新！

2025-12-26 19:07:29 248

原创每日 AI 评测速递来啦（12.25）

一个面向多轮澄清的评测基准，通过多维模糊类型和多样化用户模拟，系统评估大语言模型在真实交互中何时提问、何时回答及处理模糊信息的能力。一个用于自然场景下视觉推理能力评测的基准，通过三个复杂度层级系统评估视觉-语言模型在感知补全、规则推理和组合推理上的表现。一个基于计算力学的评测基准，用于系统评估大语言模型生成有限元方法及相关科学代码的能力。司南·Daily Benchmark 专区今日上新！

2025-12-25 19:32:48 181

原创每日 AI 评测速递来啦（12.24）

一个面向中文领域、贴近真实应用场景的深度研究评测基准，用于弥补现有评测在开放式研究智能体能力上的不足。一个以魔方为载体的评测基准，用于系统评估多模态大模型的空间推理与时序推理能力。司南·Daily Benchmark 专区今日上新！

2025-12-24 19:30:57 151

原创让优秀的评测基准被看见｜2025司南年度最受欢迎评测集评选启动

每一个优秀的评测基准，都是大模型能力进化的重要基石。而那些从 0 到 1 构建评测基准的研究者与团队，往往站在行业最前沿，却并不总是被足够多的人看见。如果你是来自学术界或产业界的专家，也非常期待你留下专业评价与建设性建议。你的每一条反馈，都是评测基准不断完善的重要参考。让优秀的评测基准被看见，让真正有价值的工作被记住！期待你和司南一起，推动大模型评测走得更远、更稳。构建过一个扎实、可靠、有价值的评测基准。或者见过、用过、认可某个优秀的评测工作。，让真正有价值的评测工作被更多人看见。

2025-12-24 19:26:42 753

原创每日 AI 评测速递来啦（12.23）

一个面向科学通用智能的评测基准，由 1,000 余个经专家精心策划的跨学科样本构成，灵感来源于《Science》杂志提出的 125 个重大科学问题。一个面向长篇、多目标图像生成任务的评测基准，包含 2,000 个任务，用于系统评估模型在复杂布局、局部对象、排版和标志精度等多目标指令下的执行能力。一个统一的图像驱动生成评测基准，提供标准化指标用于评估跨任务的生成保真度与可控性。司南·Daily Benchmark 专区今日上新！

2025-12-23 19:39:01 236

原创每日 AI 评测速递来啦（12.22）

一个面向遥感视觉理解与推理的超高分辨率评测基准，包含 5,329 张完整场景影像，图像长边不少于 4,000 像素，单张图像像素量最高约 3×10⁸，数据来源于广泛使用的遥感数据集以及无人机影像集合。一个从真实 GitHub Pull Request 自动构建的、覆盖 11 种语言的可扩展仓库级代码生成评测基准，用于系统评估和提升大模型在真实软件工程任务中的能力。司南·Daily Benchmark 专区今日上新！

2025-12-22 19:04:19 243

原创每日 AI 评测速递来啦（12.19）

该数据集包含 40 类细粒度手势，共 13,948 个实例，分布在 1,272 个序列中，特点是动作细微、动态快速且连续执行。一个用于评估单智能体多工具架构下工具编排隐私风险（TOP-R）的基准，包含成对泄露与良性场景，支持安全性与鲁棒性的综合评测。一个用于系统评估大语言模型表格生成质量的基准，覆盖六个领域、十二种由规划器驱动的扰动类型，并分为三个难度等级。一个面向智能体工具协作的多类型求解偏微分方程（PDE）基准，并提出多层级指标用于评估工具协调性。司南·Daily Benchmark 专区今日上新！

2025-12-19 19:23:43 170

原创 DeepSeek-V3.2-Speciale展现世界一流数学能力丨最新公开学术榜单发布

在 MMLU-Pro 基准和 GPQA-Diamond 基准上，各模型得分均与 GPT-5-2025-08-07 相当，以几分之差落后于 Gemini-3-Pro-Preview。随着大语言模型领域进入高速发展阶段，创新活力不断释放，优质模型密集涌现，头部模型的能力迭代节奏也在持续加快。在衡量高难度数学竞赛能力的 AIME2025 基准，以及指令跟随基准 IFEval上，最新一代国产开源模型能力已与 Gemini-3-Pro-Preview 以及 GPT-5-2025-08-07 处于同一水平梯队。

2025-12-19 18:53:49 1307

原创每日 AI 评测速递来啦（12.18）

一个面向视频时间定位（VTG）的高质量评测基准，通过对多个主流数据集进行严格标准下的重新标注，用于可靠评估多模态大模型的时间定位能力。一个面向真实世界复杂代码的推理评测基准，包含 1,101 个代码推理问题，其中 195 个问题来自成熟的真实世界项目。一个面向可解释 AI 生成视频检测的评测基准，包含 3,000 个由十余种最先进视频生成模型产生的高质量样本。司南·Daily Benchmark 专区今日上新！

2025-12-18 22:34:08 132

原创衡量AI真实科研能力！司南科学智能评测上线

随着人工智能与科学研究的深度融合，AI 驱动的科学发现正进入加速发展期。在这一背景下，如何地衡量模型在真实科研场景中的能力，已成为推动 AI for Science 可持续发展的关键。近日，司南（OpenCompass）官网正式上线，依托书生科学发现平台，构建面向多学科、多模态的科学智能评测，专注衡量大模型、智能体在核心科研能力上的真实水平，为科学智能提供可量化、可对比、可迭代的能力坐标。今年 7 月，由上海人工智能实验室打造的创新开放评测体系司南完成全面升级，评测范围从通用大模型扩展至五大方向。

2025-12-18 18:04:47 1514

原创每日 AI 评测速递来啦（12.17）

一个面向音频与文本驱动数字人动画生成的评测基准，用于全面、客观地评估模型在视频质量、身份一致性、语义对齐和口型同步等关键能力上的表现。一个数学表达式识别评测基准，将表达式按简单、中等和复杂三类划分，用于系统评估模型在处理多行、多符号复杂数学表达式时的识别能力。首个面向长视频问答的关键帧采样评测基准，通过引入多场景标注，实现对采样策略直接且稳健的评估。司南·Daily Benchmark 专区今日上新！

2025-12-17 19:02:03 192

原创每日 AI 评测速递来啦（12.16）

一个用于评估芬兰语大语言模型的统一评测基准套件，覆盖了阅读理解、常识推理、情感分析、世界知识和对齐任务中的多项选择与生成式任务。一个用于评估大语言模型在入门量化交易任务表现的评测基准，通过要求模型根据自然语言策略描述和市场假设构建可执行回测器来进行测试。一个专业图像生成评测基准，通过细粒度评分量表评估模型的科学精确性和信息密度，并支持迭代优化。一个专门用于评估代码智能体长时序仓库生成能力的评测基准。司南·Daily Benchmark 专区今日上新！

2025-12-16 19:04:40 224

原创每日 AI 评测速递来啦（12.15）

一个多粒度视频理解评测基准，包含全局、像素和时间尺度的协同任务，用于系统评估视频大语言模型在多粒度协作理解能力上的表现。一个复杂图像编辑评测基准，用于系统评估复杂编辑场景下的模型能力。首个面向基于推操作的移动机器人导航与操作任务的统一评测基准。司南·Daily Benchmark 专区今日上新！

2025-12-15 19:09:28 197

原创每日 AI 评测速递来啦（12.12）

一个用于评估多模态大模型连续视觉输入空间理解能力的评测基准，基于 1,278 个来自 25 个公开数据集与自采视频的片段，共构建了 1,106 个问题，并围绕感知、规划、预测与跨视频推理四个层级进行体系化设计。一个面向“微观空间智能”的系统化评测基准，包含逾 16.3 万个问答对、58.7 万张由约 4,000 个分子结构生成的图像，覆盖九类互补任务，评估模型从基本空间变换到复杂关系识别的多层次能力。一个专注于“动作中心图像编辑”能力的评测基准，从生成式、判别式和偏好式三类指标对模型能力进行全面衡量。

2025-12-12 18:42:11 198

空空如也

空空如也