《中文大模型基准测评2025年3月报告》发布!

SuperCLUE团队

2025/03

 摘要内容

1. DeepSeek-R1和国内外推理模型对比

2. 总榜图

背景

自2023年以来,AI大模型在过去两年掀起了全球范围内的人工智能浪潮。进入2025年,全球大模型竞争态势日益加剧,特别是随着o3-mini、DeepSeek-R1、Claude-3.7-Sonnet、QwQ-32B等推理模型的发布,国内外大模型在2025年一季度进行了波澜壮阔的大模型追逐赛。

中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪,正式发布《中文大模型基准测评2025年3月报告》。

报告全文共46页,本文仅展示报告中关键内容,完整内容可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2503

SuperCLUE排行榜地址:

www.superclueai.com

报告关键内容

关键内容1:2025年最值得关注的大模型全景图

关键内容2:3月总榜及模型象限

#测评介绍

本次2025年3月报告聚焦通用能力测评,由六大维度构成。题目均为原创新题,总量为1509道多轮简答题。

【SuperCLUE通用数据集】分为数学推理、科学推理、代码生成、智能体Agent、精确指令遵循、文本理解与创作;

【SuperCLUE评价方式】分为基于人工校验参考答案的评估(0-1得分);基于代码单元测试的评估(0-1得分);结合任务完成与否、系统状态比对的评估(0-1得分);基于规则脚本的评估(0-1得分);人工校验参考答案的、多维度评价标准的评估。

本次测评数据选取了SuperCLUE-3月测评结果,模型选取了国内外有代表性的45个大模型在3月份的版本。

#2025年3月总榜

#2025年3月模型象限

关键内容3:DeepSeek-R1及其蒸馏模型对比

  • DeepSeek-R1在各个维度均排行第一

R1在总榜和推理任务榜单上得分均超过70,在六大任务维度上明显领先其他模型。DeepSeek-R1-Distill-Qwen-32B在数学、科学推理和文本创作与理解任务上和R1得分接近,但在其余任务上相差10-30分左右。

  • 推理模型在总榜和推理任务榜单上分差较大

R1和R1系列的蒸馏模型在总榜和任务榜单上的得分差距在10-20分之间,如R1在推理任务上的得分比在总榜上高出7分,DeepSeek-R1-Distill-Qwen-14B有近17分的分差,但DeepSeek-V3分差在3分之内。

  • R1-Qwen蒸馏模型系列在推理任务中具有较高实用性

DeepSeek-R1在科学推理上的取得 64.00,与o3-mini(high)相差6分,与QwQ-32B相差3分,在科学推理任务上还有一定的提升空间。

关键内容4: DeepSeek-R1和国内外推理模型对比

  • 综合能力接近海外头部模型

DeepSeek-R1 推理总分 78.97,分别领先 Claude 3.7 Sonnet、 Gemini-2.0-Flash-Thinking-Exp-01-21近4.37、7.47分,与o3-mini(high)相差5.54分,展现出较强的推理能力

  • 数学推理和代码生成任务表现优异

DeepSeek-R1 在数学推理和代码生成任务上得分均超过80分。在数学推理上得分 85.96,超过Claude 3.7 Sonnet近7.89分,和QwQ-32B得分接近;在代码生成任务上与o3-mini(high)仅差1.84分。

  • 科学推理相对薄弱,仍需优化

DeepSeek-R1在科学推理上的取得 64.00,与o3-mini(high)相差6分,与QwQ-32B相差3分,在科学推理任务上还有一定的提升空间。

关键内容5:性价比区间分布

  • 国产推理模型凭借较低的价格实现高质量输出,展现出显著的性价比优势。

国产推理模型QwQ-32B、DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B在性价比方面展现出强大竞争力。它们在保持高水平性能的同时,保持了极低的应用成本,展现出较好的落地可用性。而海外模型Gemini 2.0 Flash Thinking exp(暂时免费)也具备高性价比,但在推理任务上的表现略逊色于其他国产高性价比模型。

  •  位于低性价比区间的基础模型较为集中,便可划分为高性高价和低性低价

位于低性价比区域的基础模型,在价格或性能上略逊于中高性价比模型,例如GPT-4o-latest,kimi-latest等价格较高但性能可圈可点;而Llama-3.2-3B-Instruct、Qwen2.5-3B-Instruct等的性能尚有提升空间,但价格较为实惠。表明这些模型的发展表面上显得过于片面,影响用户体验。

关键内容6:推理效率区间分布

  • 海外推理模型综合效能领先

o3-mini (high) 和 Gemini-2.0-Flash-Thinking-Exp-01-21 在推理速度和基准得分的综合表现上处于领先地位, 推理任务分数均在70分以上,平均推理耗时在30秒内。

  • 国内推理模型大部分处于中低效能区间

国内推理模型中,QWQ-32B推理任务得分最高(79.15分),但平均推理耗时超过110秒。推理任务得分超过70分的国内推理模型,平均推理耗时均超过40秒。

  • 国内基础模型综合效能与海外基础模型无明显优劣

在高效能区中,国内基础模型表现与海外基础模型在伯仲之间。中效能区中,国内基础模型表现与海外基础模型表现各有优劣,在推理速度上,ChatGPT-4o-latest和GPT-4o-mini领先,但在得分上只有hunyuan-turbos-20250226达到了60分。

关键内容7:2025年国内外大模型差距及趋势

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在缩小。

2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1、o3-mini、GPT-4.5的多个版本版迭代升级。

国内模型也经历了波澜壮阔的23个月的迭代周期。但随着DeepSeek-R1的发布,差距从15.05%缩小至7.46%。

关键内容8:榜单概览

#总榜

#推理模型总榜

#推理任务总榜

#基础模型总榜

#开源模型榜单

#10B以内模型榜单

#5B以内端侧模型榜单

由于篇幅有限,本文仅展示报告中部分内容。完整内容包括测评方法、测评示例、子任务榜单、多模态、应用、推理基准介绍等。可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2503

欢迎加入【2025年报告】交流群。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值