《中文大模型基准测评2025年3月报告》发布！

最新推荐文章于 2025-04-17 18:27:49 发布

技术人生黄勇

最新推荐文章于 2025-04-17 18:27:49 发布

阅读量1.4k

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5NDg2MjgxMg==&mid=2247486143&idx=1&sn=4f9002f874d4e6a3086a1bbe660fa677&chksm=ffbd7a361d5720e01b2898aeb408df7065f978e6dad31c54697786150df202db078f18df1fe7&scene=126&sessionid=0

版权

SuperCLUE团队

2025/03

摘要内容

1. DeepSeek-R1和国内外推理模型对比

2. 总榜图

背景

自2023年以来，AI大模型在过去两年掀起了全球范围内的人工智能浪潮。进入2025年，全球大模型竞争态势日益加剧，特别是随着o3-mini、DeepSeek-R1、Claude-3.7-Sonnet、QwQ-32B等推理模型的发布，国内外大模型在2025年一季度进行了波澜壮阔的大模型追逐赛。

中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪，正式发布《中文大模型基准测评2025年3月报告》。

报告全文共46页，本文仅展示报告中关键内容，完整内容可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2503

SuperCLUE排行榜地址：

www.superclueai.com

报告关键内容

关键内容1：2025年最值得关注的大模型全景图

关键内容2：3月总榜及模型象限

#测评介绍

本次2025年3月报告聚焦通用能力测评，由六大维度构成。题目均为原创新题，总量为1509道多轮简答题。

【SuperCLUE通用数据集】分为数学推理、科学推理、代码生成、智能体Agent、精确指令遵循、文本理解与创作；

【SuperCLUE评价方式】分为基于人工校验参考答案的评估（0-1得分）；基于代码单元测试的评估（0-1得分）；结合任务完成与否、系统状态比对的评估（0-1得分）；基于规则脚本的评估（0-1得分）；人工校验参考答案的、多维度评价标准的评估。

本次测评数据选取了SuperCLUE-3月测评结果，模型选取了国内外有代表性的45个大模型在3月份的版本。

#2025年3月总榜

#2025年3月模型象限

关键内容3：DeepSeek-R1及其蒸馏模型对比

DeepSeek-R1在各个维度均排行第一

R1在总榜和推理任务榜单上得分均超过70，在六大任务维度上明显领先其他模型。DeepSeek-R1-Distill-Qwen-32B在数学、科学推理和文本创作与理解任务上和R1得分接近，但在其余任务上相差10-30分左右。

推理模型在总榜和推理任务榜单上分差较大

R1和R1系列的蒸馏模型在总榜和任务榜单上的得分差距在10-20分之间，如R1在推理任务上的得分比在总榜上高出7分，DeepSeek-R1-Distill-Qwen-14B有近17分的分差，但DeepSeek-V3分差在3分之内。

R1-Qwen蒸馏模型系列在推理任务中具有较高实用性

DeepSeek-R1在科学推理上的取得 64.00，与o3-mini（high）相差6分，与QwQ-32B相差3分，在科学推理任务上还有一定的提升空间。

关键内容4： DeepSeek-R1和国内外推理模型对比

综合能力接近海外头部模型

DeepSeek-R1 推理总分 78.97，分别领先 Claude 3.7 Sonnet、 Gemini-2.0-Flash-Thinking-Exp-01-21近4.37、7.47分，与o3-mini（high）相差5.54分，展现出较强的推理能力

数学推理和代码生成任务表现优异

DeepSeek-R1 在数学推理和代码生成任务上得分均超过80分。在数学推理上得分 85.96，超过Claude 3.7 Sonnet近7.89分，和QwQ-32B得分接近；在代码生成任务上与o3-mini(high)仅差1.84分。

科学推理相对薄弱，仍需优化

DeepSeek-R1在科学推理上的取得 64.00，与o3-mini（high）相差6分，与QwQ-32B相差3分，在科学推理任务上还有一定的提升空间。

关键内容5：性价比区间分布

国产推理模型凭借较低的价格实现高质量输出，展现出显著的性价比优势。

国产推理模型QwQ-32B、DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B在性价比方面展现出强大竞争力。它们在保持高水平性能的同时，保持了极低的应用成本，展现出较好的落地可用性。而海外模型Gemini 2.0 Flash Thinking exp（暂时免费）也具备高性价比，但在推理任务上的表现略逊色于其他国产高性价比模型。

位于低性价比区间的基础模型较为集中，便可划分为高性高价和低性低价

位于低性价比区域的基础模型，在价格或性能上略逊于中高性价比模型，例如GPT-4o-latest，kimi-latest等价格较高但性能可圈可点；而Llama-3.2-3B-Instruct、Qwen2.5-3B-Instruct等的性能尚有提升空间，但价格较为实惠。表明这些模型的发展表面上显得过于片面，影响用户体验。

关键内容6：推理效率区间分布