榜单
文章平均质量分 87
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
头部模型竞争胶着,能力均衡性成制胜关键丨多模态模型5月最新榜单揭晓
多模态推理维度中,SenseNova-6-7-Flash-Alpha 以 86.9 分位列第一,GPT-5.5(high)以 86.2 分位列第二,Qwen3.7-Plus 以 84.4 分位列第三,Gemini-3.1-Pro-Preview 与 Qwen3.5-397B-A17B 分别以 83.8 分和 82.5 分位列第四、第五。它在通用感知维度以 73.0 分位列第一,在信息图形感知维度以 80.0 分位列第二,在多模态推理维度也达到 82.5 分,展现出非常均衡的综合能力。原创 2026-06-11 20:47:07 · 360 阅读 · 0 评论 -
GPT领跑,头部模型“错位竞争”,强Agent能力成下一战场丨大语言模型4月最新榜单揭晓
大模型技术在全球范围内加速演进,智能体能力不断深化,从多步执行走向多智能体协同,从辅助工具走向独立执行者,开始在跨平台、跨应用的真实场景中端到端地完成任务;推理能力在数学、科学等高难度任务上持续突破,可靠性进一步提升。模型的自进化能力亦在涌现,能够在执行中主动调整策略并迭代优化。长线程任务能力的增强,让模型得以在大型工程中稳步推进,承担起高度复杂的生产力任务。司南持续关注全球大模型发展动态,原创 2026-05-14 11:15:16 · 558 阅读 · 0 评论 -
OpenClaw大考!WildClawBench用60道题,把 “龙虾”AI打回原形
最近几个月,越来越多的开发者开始“养龙虾”:给它加技能、写记忆、调人格,希望它能帮自己处理现实任务。但面对日常工作和生活场景,我们养的“龙虾”,真的可以端到端把事情做完吗?它的“大脑”该用哪个模型,效果最好、性价比最高?这恐怕是所有“养虾”用户都关心的问题。而回看过去一年的各类 Agent Benchmark,大多仍聚焦在“单点能力”的评测,但真实任务更像一场长跑:AI 需要跨模态理解信息,在动态环境中选择工具,并不断处理意料之外的错误。真正关键的,不是某一步是否正确,而是能否完成端到端的闭环交付。为填补这原创 2026-04-14 11:35:34 · 554 阅读 · 0 评论 -
Gemini-3.1-Pro-Preview登顶,国产模型表现亮眼丨多模态模型2月最新榜单揭晓
值得注意的是,开源模型 Ovis2.6-30B-A3B 以 54.37 分排名第五,Step3-VL-10B 以 51.88 分排名第六,两者均为参数量相对较小的开源模型(30B 和 10B),却在推理维度超越了多款大参数闭源模型,这表明推理能力的提升并不完全依赖于参数规模的扩展。Claude-Opus-4-6 以 91.97 分夺冠,Kimi-k2.5(90.05 分)和 SenseNova-V6-5-Pro(89.67 分)分列第二、三名,三者在 2.3 分的极窄区间内展开了激烈角逐。原创 2026-03-12 20:44:54 · 526 阅读 · 0 评论 -
Gemini-3-Pro-Preview登顶,大模型迈入Agent元年丨大语言模型1月最新榜单揭晓
进入 2026 年,全球大模型技术持续加速演进,新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标,转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力,在编程、推理、工具调用与信息检索等关键方向不断提升,全面增强解决实际问题的能力。与此同时,中国大模型在全球舞台上持续受到关注,越来越多模型在海外社区引发热议,展现出中国在大模型日益增强的技术实力与创新活力。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!原创 2026-02-12 18:25:11 · 1588 阅读 · 0 评论 -
通用安全 ≠ 行业可用!领域安全榜单揭示大模型垂域隐性风险 | 安全评测
从 Shell 基准的风险挖掘,到 MENTOR 框架的自进化防御,研究团队致力于为大模型进入垂直行业应用建立一套可量化的安全标准。然而,教育、金融和管理仅仅是起点。随着 AI 深入医疗、法律等更多核心领域,隐性风险的形态将更加复杂。未来的研究将重点关注如何让模型不仅学会遵守规则,更能理解规则背后的价值观,最终实现从外挂式防御向内化式安全的跨越。司南将持续关注并跟进 Shell 基准的迭代更新,欢迎社区开发者共同参与评测与建设!原创 2026-01-07 10:45:40 · 1196 阅读 · 0 评论 -
DeepSeek-V3.2-Speciale展现世界一流数学能力丨最新公开学术榜单发布
在 MMLU-Pro 基准和 GPQA-Diamond 基准上,各模型得分均与 GPT-5-2025-08-07 相当,以几分之差落后于 Gemini-3-Pro-Preview。随着大语言模型领域进入高速发展阶段,创新活力不断释放,优质模型密集涌现,头部模型的能力迭代节奏也在持续加快。在衡量高难度数学竞赛能力的 AIME2025 基准,以及指令跟随基准 IFEval上,最新一代国产开源模型能力已与 Gemini-3-Pro-Preview 以及 GPT-5-2025-08-07 处于同一水平梯队。原创 2025-12-19 18:53:49 · 1309 阅读 · 0 评论 -
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓
多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。司南持续关注大模型的发展动态,原创 2025-12-10 18:33:51 · 1403 阅读 · 0 评论 -
断层式领先!Gemini 3.0全方位评测新鲜出炉
近期,谷歌发布了新一代大模型Gemini 3.0,被视为谷歌重回AI第一阵营的关键里程碑。通用基准方面,Gemini-3-Pro-Preview在MMLU-Pro、GPQA-Diamond、MathVision、MMStar等多个基准上的表现显著领先其他模型,展现出了超越现有标杆的通用认知与推理能力。司南OpenCompass对Gemini-3-Pro-Preview的通用文本能力、学科专业文本能力、通用多模态能力、学科专业多模态能力进行了评测,具体结果如下图所示。每日更新最新 AI 评测方向论文。原创 2025-11-27 16:53:47 · 794 阅读 · 0 评论 -
各有所长,国内外模型安全评估丨多个大模型安全榜单揭晓
覆盖 96 个国内外主流大模型,涉及文本和多模态数据,包括 48 个海外模型(如 Claude-4、GPT-4o 等)、48 个国内模型(如 Qwen3、InternLM等),其中开源模型 75 个,闭源模型 21 个。大模型的在中文环境中的多维度合规性是其在我国广泛应用的关键基础,也是此次评测的重要维度。深层洞察:排名靠前的模型在各评测维度都有比较均衡的安全分数,而排名靠后的模型在社会经济风险维度的安全性较高,而对毒性输入的抵御能力较弱,这说明这些大模型在训练过程中对毒性输入的重视程度需要提高。原创 2025-11-13 11:28:09 · 1744 阅读 · 0 评论 -
Seed持续领跑,国产开源模型异军突起丨多模态模型8月最新榜单揭晓
在多模态推理方面,Gemini-5-20250807 在评测中取得了最佳的成绩,且较第 2 名(Gemini-2.5-Pro,也即上一期的第 1 名)有较大的领先优势,展现出多模态大模型在推理方面快速迭代成效显著。开源模型正迎头赶上,不断拉近与闭源模型领头羊的距离。在多模态创作等领域,GPT-5-20250807 等海外模型仍具有一定优势,同时整体的性能与榜单头名的差距也从上期的 6 分拉近到了本期的不到 2 分,说明海外模型在部分能力上仍具有不可替代的优势,整体性能迭代势头不可小觑。原创 2025-09-12 19:12:10 · 1613 阅读 · 0 评论 -
GPT-5-2025-08-07登顶!工具调用能力呈多元化竞争态势丨大语言模型7月最新榜单揭晓
GPT-5-2025-08-07登顶!国产开源模型比肩海外闭源模型丨大语言模型7月最新榜单揭晓步入2025年下半年,大模型的竞争焦点不再仅仅是‘比参数、卷榜单’,而是转向通用能力与专业能力的深度融合,更加注重实用价值。技术演进也不再局限于语言理解与生成的单一维度,而是迈向知识注入与技能融合的深层进化。越来越多的大模型被赋予代码编写、数学推理、科研理解等多学科能力,既能胜任日常对话任务,又能胜任复杂专业任务。AI不再只是文本生成器或聊天机器人,而正逐步演化为具备跨领域知识与多任务协作能力的“AI专家”。原创 2025-08-14 11:45:26 · 1610 阅读 · 0 评论 -
Seed1.5-VL登顶,国产闭源模型弯道超车丨多模态模型5月最新榜单揭晓
随着图像、文本、语音、视频等多模态信息融合能力的持续增强,多模态大模型在感知理解、逻辑推理和内容生成等任务中的综合表现不断提升,正在展现出愈发接近人类的智能水平。多模态能力也正在从底层的感知理解,迈向具备认知、推理、决策能力的高阶智能,成为通向通用人工智能的重要路径。与此同时,随着模型基础能力的持续增强,多模态模型在各行各业的应用日益深入。从最初“能看懂、会表达”的基础阶段,逐步发展为“能思考、会协作、懂语境”的高级形态,推动智能新时代的加速到来。司南持续关注大模型的发展动态,,近期针对。原创 2025-06-06 19:05:31 · 1597 阅读 · 0 评论 -
谁才是最懂你的多模态大模型?主观评测榜单揭晓,“场景中”见真章!
具备跨模态理解能力的多模态大模型能实现更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。从图文理解、视觉问答到图像推理,模型们看似“万事通”,但真正打动人心、贴近用户需求的模型,究竟该如何评判?国内外主流的闭源模型(如GPT-4.1-20250414、Gemini-2.5-flash等)和开源模型(如InternVL3系列、Qwen2.5-VL系列等),围绕着等多个维度进行了全面评测。相比客观评测,这份榜单采用的,能够更好反映模型在“场景中”的综合能力。原创 2025-05-22 11:22:51 · 2150 阅读 · 0 评论 -
Gemini-2.5-Pro登顶,推理模型强势领跑丨大语言模型4月最新榜单揭晓
大模型技术在全球范围内持续加速演进,各大科技公司竞相推出新一代模型,不断突破语言理解、逻辑推理、代码生成等关键能力的上限,推动AI从单一任务助手迈向多领域协同的智能体。与此同时,以“推理能力”为核心的新模型大量涌现,成为近期技术演进的焦点。从数学计算、逻辑推理到科学问答与代码生成,推理模型不断刷新AI在复杂任务中的表现边界,呈现出从“会答”向“会推理”的跃升趋势。在这一过程中,技术创新与实际应用加速融合,正在重塑人工智能的能力边界与产业格局。原创 2025-05-14 16:39:45 · 1361 阅读 · 0 评论 -
司南大语言模型最新榜单发布!DeepSeek-R1 登顶,推理模型大放异彩!
2025 年伊始,尤其是春节假期前后一段时间,大模型领域犹如一场科技盛宴,每一天都为我们带来前所未有的惊喜与震撼。其中,DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目,它不仅刷新了行业标准,更以其卓越的表现和创新的技术,在全球范围内引发了广泛关注,成为这一时期当之无愧的“话题王”。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!本次榜单囊括了国内外共 41 个大语言模型,包含国内外主流闭源模型和社区开源模型。原创 2025-02-20 20:48:37 · 1582 阅读 · 0 评论 -
Compass Arena 大语言模型对战榜单新一轮更新来啦!
CompassArena自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!原创 2024-08-02 10:52:56 · 1382 阅读 · 0 评论
分享