司南大语言模型最新榜单发布！DeepSeek-R1 登顶，推理模型大放异彩！

原创已于 2025-02-20 20:53:24 修改

· 1.1k 阅读

22 ·

版权

文章标签：

#语言模型 #人工智能 #自然语言处理

于 2025-02-20 20:48:37 首次发布

榜单专栏收录该内容

5 篇文章

订阅专栏

2025 年伊始，尤其是春节假期前后一段时间，大模型领域犹如一场科技盛宴，每一天都为我们带来前所未有的惊喜与震撼。其中，DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目，它不仅刷新了行业标准，更以其卓越的表现和创新的技术，在全球范围内引发了广泛关注，成为这一时期当之无愧的“话题王”。

司南持续关注大模型的发展动态，近期针对国内外主流大语言模型进行了全面评测，现公布 2025 年最新（即 1 月）大语言模型评测榜单！

本次榜单囊括了国内外共 41 个大语言模型，包含国内外主流闭源模型和社区开源模型。

榜单更新说明

相较于 2024 年 11 月榜单，本次榜单的主要更新包括：

新加入的模型：

DeepSeek-R1, DeepSeek-V3, o3-mini-2025-01-31(medium), o1-2024-12-17, Gemini-2.0-Pro-Exp-02-05, Doubao-1.5-pro, Qwen2.5-Max 等最新闭源模型，以及 InternLM3-8B-Instruct, QwQ-32B-Preview 等开源模型。

评测集持续迭代：

持续更新闭源测评数据集，纳入来自书生大模型对话系统的真实用户提问、最新编程比赛、最新数学竞赛题以及人工合成推理计算等问题，确保题目既有足够的新颖性并且能反映模型的真实差距。

数据集难度增加：

大幅增加数学、代码、推理等强逻辑题目难度，旨在增强模型能力区分度。

评测方法升级：

首次采用 LLM Judge 方式评测部分客观题目，确保评测的稳定性及一致性。为保证主观评测公平性，针对 DeepSeek-R1 模型仅抽取思考过程后的最终结果进行评估。

月度榜单评测基准

司南大语言模型官方自建评测榜单，综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随六大能力维度，这些维度进一步细化为包括自然语言处理、理工科知识、通用推理、数学竞赛，逻辑谜题推理等十余项细分任务，以实现对行业开源模型和商业 API 模型进行全面评测分析。

*不同能力维度会根据任务形式选用主观或客观评测方案。总分基于各能力维度加权获得: 语言（1/9）、推理（2/9）、知识（1/9）、代码（2/9）、数学（2/9）、指令跟随（1/9）。

评测题目示例

指令跟随

问题

在英超的一场比赛中，一个年轻的球员凭借一次精彩的进球瞬间成为了全场的焦点。请以“一球成名”为题，采用Markdown格式，描述这个球员从寂寂无名到众人关注的奇妙一刻，使用生动的语言捕捉这一瞬间的紧张与兴奋。在您的回复中，每个句子开头必须是‘球员’，且不得使用问号或感叹号。必须以庄重的语气撰写，并且至少使用3次比喻修辞手法。此外，您需要在文章的中部插入一段关于球迷反应的描述，同时在回复的开头和结尾使用星号(*)符号进行隔开。

Checklist: [
    "回复是否采用Markdown格式。",
    "回复的每个句子开头是否都是‘球员’。",
    "回复中是否没有使用问号或感叹号。",
    "回复是否以庄重的语气撰写。",
    "回复中是否至少使用了3次比喻修辞手法。",
    "回复中是否在文章的中部插入了一段关于球迷反应的描述。",
    "回复的开头和结尾是否使用了星号(*)符号进行隔开。",
    "回复中是否提供了一个具体的例子来佐证球员进球后的关注。"
]

DeepSeek-R1 回复

*球员曾是一道模糊的影子，在绿茵场的边缘徘徊，如同未完工的素描隐没于画布角落。  
球员的每一次触球都像晨雾中的露珠，短暂地折射微光，又迅速消散于炽热的对抗中。  
球员在第八十七分钟接过队友的传球，如同一只蛰伏的猎豹突然嗅到风中的震颤。  
球员的足尖挑起皮球，时间随之凝滞，草屑与汗珠悬浮成星环，环绕他绷紧的躯体。  
球员的视线穿透人墙缝隙，球门在他瞳孔中坍缩为针尖，而他的右脚已化作拉满的弓弦。  

（球迷反应段落）  
球员的名字如野火般在观众席间蔓延，凝固的寂静被撕裂为沸腾的呼喊。  
球员的射门轨迹被无数瞳孔反复描摹，仿佛一颗彗星将漫长的等待燃成刹那的永恒。  
球员的身影像一柄出鞘的古剑，在镁光灯的暴雨中淬出寒芒与荣光。  

球员目睹皮球撞入网窝，喧嚣声浪将他托举至云端，如同新生的恒星撕裂暗夜帷幕。  
球员的旧球衣仍在更衣室角落蜷缩，而此刻他的脊背已披满星河，每一道褶皱都在诉说传奇。  
球员从此成为这座城市的寓言，每个街角都在复述那道改写命运的弧线。  
球员的过去被重新装订成册，而未来正以金箔般的笔触书写新的序章。*

DeepSeek-R1 思考过程

<think>
好的，我现在需要处理用户的这个请求，帮他生成一篇符合要求的Markdown格式的文章。首先，我得仔细分析用户的具体要求，确保不遗漏任何细节。

用户要求以“一球成名”为题，描述一个年轻球员从默默无闻到成名的瞬间。每个句子必须以“球员”开头，不能使用问号或感叹号，语气要庄重，至少三个比喻，中间插入球迷反应，开头和结尾用星号分隔。这些都需要一一满足。

首先，结构方面，开头和结尾用星号隔开，中间分几段。每个句子开头都是“球员”，这可能需要调整句子的结构，避免重复单调。然后，比喻的使用，至少三次，得找合适的场景来比喻，比如动作、环境等。比如把球员的动作比作猎豹、箭矢、雕塑等，这样既生动又符合庄重的语气。

接下来是球迷反应的段落，需要放在文章中部。这里要描述球迷的情绪变化，从屏息到爆发，用比喻如熔岩、海啸、蜂群等，增强画面感。同时保持每个句子以“球员”开头，可能需要调整句子的主语，但用户可能允许在球迷段落中暂时转换主语，不过根据例子来看，可能还是需要保持。需要再仔细看例子，发现用户提供的示例中，在球迷反应段落里，句子开头并没有强制使用“球员”，所以可能可以灵活处理。但原用户的要求是每个句子开头必须是“球员”，所以可能需要调整，比如“球迷的呼喊如熔岩喷发”这样的句子可能不符合，必须每个句子都以“球员”开头。这可能是个问题，需要确认。

仔细看用户提供的示例，中间插入的球迷反应段落中，每个句子并没有以“球员”开头，而是描述了球迷的反应。但用户的要求是每个句子开头必须是“球员”，这可能意味着整个文章中的所有句子，包括球迷反应部分，都必须以“球员”开头。这会导致在描述球迷时，可能需要用“球员的名字在球迷间传递”这样的结构，但这样可能不太自然。或者用户可能允许在球迷段落中暂时不用，但根据用户给出的示例，似乎允许在中间段落中不用。需要再仔细看用户的要求。

用户明确说明“在您的回复中，每个句子开头必须是‘球员’”，所以所有句子都必须以“球员”开头，包括球迷反应的部分。这确实有挑战，但可以通过将球迷反应作为球员动作的伴随来描述。例如：“球员的名字如野火般在观众席间蔓延，凝固的寂静被撕裂为沸腾的呼喊。”这样每个句子仍以“球员”开头，同时描述球迷的反应。

接下来，语气要庄重，避免使用感叹号或问号。比喻需要至少三个，比如猎豹、箭矢、雕塑，以及球迷部分的熔岩、海啸、蜂群等，可能每个比喻算一次，需要确保总数超过三次。

然后检查是否每个句子都以“球员”开头，没有使用禁止的标点。结构上，开头和结尾用星号，中间分段落，球迷反应放在中部。可能需要四到五段，中间两段描述射门和球迷反应，最后一段描述成名后的影响。

现在开始构思内容。第一段介绍球员之前的默默无闻和比赛的重要性。第二段描述进球瞬间，使用比喻。第三段插入球迷反应，用比喻。第四段描述进球后的影响，继续使用比喻。确保每个段落句子都以“球员”开头，并保持庄重语气。

例如：

*  
球员曾是一道模糊的影子，在绿茵场的边缘徘徊，如同未完工的素描隐没于画布角落。  
球员的每一次触球都像晨雾中的露珠，短暂地折射微光，又迅速消散于炽热的对抗中。  
球员在第八十七分钟接过队友的传球，如同一只蛰伏的猎豹突然嗅到风中的震颤。  
...  

中间插入球迷反应：

球员的名字如野火般在观众席间蔓延，凝固的寂静被撕裂为沸腾的呼喊。  
球员的射门轨迹被无数瞳孔反复描摹，仿佛一颗彗星将漫长的等待燃成刹那的永恒。  
球员的身影像一柄出鞘的古剑，在镁光灯的暴雨中淬出寒芒与荣光。  

最后收尾：

球员从此成为这座城市的寓言，每个街角都在复述那道改写命运的弧线。  
球员的过去被重新装订成册，而未来正以金箔般的笔触书写新的序章。  
*  

这样应该符合所有要求。需要检查比喻的数量，至少三个，这里用了猎豹、彗星、古剑等，满足条件。球迷反应部分也以球员开头，描述了球迷的反应，同时保持庄重语气。每个句子开头都是“球员”，没有使用禁止的标点。开头和结尾用星号分隔，结构正确。
</think>

o3-mini-2025-01-31 回复

*
# 一球成名

球员在英超绿色战场上默默耕耘，他的身影宛如清晨露珠般纯净，在寂静中蕴含着无限的力量。  
球员凭借精准的跑位，其动作犹如大海中的潮汐温柔而坚定，推动着命运的巨轮悄然转动。  
球员冲出中场，如同烈日下冶炼的钢铁般闪烁着坚毅的光芒，其每一次触球都预示着变革的来临。  

球员在那决定性的瞬间起脚射门，球速迅捷犹如狂风掠过平原，稳稳击穿对方防线。  
球员的进球仿佛一朵盛开在冰雪中的花朵，点亮了整个球场，也唤起了众人心中沉睡的希望。  
球员的这一刻不仅铸就了刻骨铭心的历史，更如同晨曦初露，将他从无名小卒化作万众瞩目的焦点。  

球员的表现引发了球迷席上的涟漪，球员的入球引起了阵阵低吟，仿佛大地回响着古老传说的节拍。  
球员的成就使得看台上球迷们的情绪如同春雷在空中回响，内心的激情被瞬间唤起而沉稳扩散。  
球员的神采与贡献让球迷们纷纷低下头颔首致敬，他们如同一支整齐列队的军队，用目光礼赞这历史性的一球。  

球员在闪烁的聚光灯下静静伫立，他的身影如同夜空中的北极星般高贵稳固，在庄严的氛围中定格为永恒。  
球员的每一步都留存着历史的印记，其内心充满坚定信念，仿佛山岳般不可撼动。他终将铭记那一刻，如同铭刻在岁月长河中的永恒誓言。  
*

两者都符合题目的基本要求，包括 Markdown 格式、句子开头、语气、比喻修辞、球迷反应描述以及开头和结尾的星号符号。
DeepSeek-R1 的比喻修辞更加新颖，语言表现力更强，情感渲染更加细腻，能够更好地捕捉用户要求的‘紧张与兴奋’的瞬间。相比之下 o3-mini 的描写较为抽象，缺乏具体的细节，在文学性上略逊一筹。

推理计算

问题

若$f(x) = \frac{43*x + (24)}{100*x+(-32)}$，求$f(-2)+f(-1)+f(0)$的值，并以最简分数形式作答。
请逐步推理，并将最终答案写在\boxed{}中

标准答案

-1297/3828

DeepSeek-R1 回复

首先，分别计算函数 ( f(x) = frac{43x + 24}{100x - 32} ) 在 ( x = -2 )、( x = -1 ) 和 ( x = 0 ) 处的值：

1. **计算 ( f(-2) )**：
   f(-2) = frac{43(-2) + 24}{100(-2) - 32} = frac{-86 + 24}{-200 - 32} = frac{-62}{-232} = frac{62}{232} = frac{31}{116}

2. **计算 ( f(-1) )**：
   f(-1) = frac{43(-1) + 24}{100(-1) - 32} = frac{-43 + 24}{-100 - 32} = frac{-19}{-132} = frac{19}{132}

3. **计算 ( f(0) )**：
   f(0) = frac{43(0) + 24}{100(0) - 32} = frac{24}{-32} = -frac{24}{32} = -frac{3}{4}

接下来，将这三个分数相加：
4. **计算 ( \frac{31}{116} + \frac{19}{132} - \frac{3}{4} )**：
   - 找到公分母 3828（116 和 132 的最小公倍数）：
     [116 = 2^2 \times 29, \quad 132 = 2^2 \times 3 \times 11]
     最小公倍数为 \( 2^2 \times 3 \times 11 \times 29 = 3828 )
   - 转换为公分母后的分数：
     [\frac{31}{116} = \frac{31 \times 33}{3828} = \frac{1023}{3828}, \quad \frac{19}{132} = \frac{19 \times 29}{3828} = \frac{551}{3828}]
     [\frac{3}{4} = \frac{3 \times 957}{3828} = \frac{2871}{3828}]
   - 相加结果：
     [\frac{1023}{3828} + \frac{551}{3828} - \frac{2871}{3828} = \frac{1023 + 551 - 2871}{3828} = \frac{-1297}{3828}]

5. **约分检查**：
   - 使用辗转相除法确认 1297 和 3828 的最大公约数为 1，因此分数已是最简形式。

最终结果为：
[\boxed{-\dfrac{1297}{3828}}]

DeepSeek-R1 思考过程

<think>
1.计算函数值
首先，先处理f(-2)。代入x = -2进去的话，分子是43*(-2) + 24，分母是100*(-2) + (-32)。让我先计算分子部分：43乘-2是多少呢？43乘2是86，所以43乘-2就是-86，然后加上24，所以分子是-86 + 24，等于-62。分母的话，100乘-2是-200，加上-32，也就是-200 -32，等于-232。所以f(-2)就是-62/-232。这里分子分母都是负数，负负得正，所以等于62/232。接下来，我需要看看这个分数能不能约分。62和232的最大公约数是多少呢？首先，62的因数有1、2、31、62，而232除以2是116，再除以2是58，再除以2是29，所以232的因数有2、4、8、29等等。所以62和232的最大公约数是2，所以分子分母都除以2，得到31/116。所以f(-2) = 31/116。
......

2.计算f(-2),f(-1),f(0)公分母
首先，先计算31/116 + 19/132。为了相加这两个分数，需要找到它们的最小公分母。116和132的因数分解是什么呢？
首先分解116：116 ÷ 2 = 58，58 ÷ 2 =29，所以116=2×2×29=2²×29。
分解132：132 ÷2=66，66 ÷2=33，33 ÷3=11，所以132=2²×3×11。
所以最小公倍数应该是各个质因数的最高次幂相乘，即2²×3×11×29。计算一下：2²=4，4×3=12，12×11=132，132×29=3828。所以最小公分母是3828。
......

3. 转化为公分母后的分数
计算31×(3828/116)：首先，3828 ÷116是多少呢？116×33=3828，所以3828/116=33。所以31×33=1023，所以31/116=1023/3828。
同样，19×(3828/132)：3828 ÷132=29，因为132×29=3828。所以19×29=551，所以19/132=551/3828。
......

4.辗转相除法确认
检查一下1297和3828的最大公约数：
用辗转相除法：
3828 ÷1297=2次，因为1297×2=2594，余数3828 -2594=1234
然后，1297 ÷1234=1次，余数1297 -1234=63
1234 ÷63=19次，63×19=1197，余数1234 -1197=37
63 ÷37=1次，余数63 -37=26
37 ÷26=1次，余数37 -26=11
26 ÷11=2次，余数26 -22=4
11 ÷4=2次，余数11 -8=3
4 ÷3=1次，余数4 -3=1
3 ÷1=3次，余数0
所以，最大公约数是1，说明这个分数已经是最简形式了，所以结果就是-1297/3828。
......

5. 反复确认
所以，最终答案就是-1297/3828，不过可能需要确认一下这个分数是否正确。
或者，可能我在计算过程中哪里出错了？
比如，在计算31/116 +19/132的时候，有没有可能分子相加错误？
31×33=1023，19×29=551，1023+551=1574，没错。
然后，1574/3828 -2871/3828= (1574 -2871)/3828= -1297/3828，没错。
所以，结果正确。
因此，我认为这个问题的正确答案是-1297/3828，不过可能需要再检查一下。
不过，可能有没有可能题目中的函数是(43x +24)/(100x + (-32))，也就是分母是100x -32，对吗？
是的，题目中的分母是100x + (-32)，也就是100x -32，没错。
所以，所有计算都是正确的，结果正确。
不过，可能有没有可能这个分数可以化简为更小的分母？
比如，分子和分母同时除以某个数？
根据之前的分析，1297和3828的最大公约数是1，所以无法约分。
所以，最终答案就是-1297/3828。
不过，这个分数看起来有点大，可能有没有可能我在计算过程中哪里出错了？
比如，在计算公分母的时候，有没有可能算错了？
比如，116和132的最小公倍数是不是3828？
116=2²×29，132=2²×3×11，所以最小公倍数是2²×3×11×29=4×3×11×29=4×3=12，12×11=132，132×29=3828，没错。
所以，公分母正确。
所以，我认为这个结果是对的，尽管看起来有点复杂，但确实是正确的。
不过，可能有没有可能题目中的函数是另一种形式，或者题目中的点不是-2、-1、0，而是其他数？
不过，题目明确说是求f(-2)+f(-1)+f(0)，所以没错。
所以，最终答案应该是\boxed{-\dfrac{1297}{3828}}。
不过，在提交之前，再检查一次所有步骤，确保没有计算错误。
确认完毕，所有步骤正确，结果正确，分数已经是最简形式。
.....

Claude 3.5 Sonnet 20241022 回复

让我们一步一步解决：
1) 首先，让我们分别计算f(-2)、f(-1)和f(0)
2) 计算f(-2)：
   * f(-2) = (43*(-2) + 24) / (100*(-2) + (-32))
   * = (-86 + 24) / (-200 - 32)
   * = -62 / -232
   * = 31/116
3) 计算f(-1)：
   * f(-1) = (43*(-1) + 24) / (100*(-1) + (-32))
   * = (-43 + 24) / (-100 - 32)
   * = -19 / -132
   * = 19/132
4) 计算f(0)：
   * f(0) = (43*0 + 24) / (100*0 + (-32))
   * = 24 / -32
   * = -3/4
5) 现在计算总和：
   * f(-2) + f(-1) + f(0)
   * = 31/116 + 19/132 - 3/4
6) 通分：
   * 先找最小公倍数：116, 132, 4的最小公倍数是396
   * 31/116 = 105/396
   * 19/132 = 57/396
   * -3/4 = -297/396
7) 相加：
   * (105 + 57 - 297)/396
   * = -135/396
   * = -5/12
因此，f(-2) + f(-1) + f(0) = -5/12
\boxed{-\frac{5}{12}}

在数学问题求解能力上，DeepSeek-R1 展现了严谨的推理过程。其通过将复杂问题拆解为多个可验证的子问题，并建立多重校验机制，确保了最终答案的准确性。相比之下，Claude 3.5 Sonnet 20241022 在计算公倍数时，既未采用因式分解等标准数学方法，也缺乏必要的验证步骤，导致最终结果出现偏差。
在推理效率方面，DeepSeek-R1 在本题中输出了超过 6000 个tokens，展现出明显的反复验证特征。这种"谨慎型"推理模式虽然确保了结果的准确性，但也带来了计算资源的额外消耗。

注意事项

大语言模型官方自建榜评测榜单每三月更新一次；
新模型厂商若想参与该月榜单评测，可在当月 25 日前发送邮件至 opencompass@pjlab.org.cn 申请评测申请加入司南 OpenCompass 月度评测榜单；
加入司南 OpenCompass 评测的结果默认公开；
仅支持开源或对外提供 API 服务商业化模型（内部迭代研发模型暂不支持评测，目前仅支持兼容 Openai 接口）；
为了确保公平性，司南通过公开采购的方式获取了商业 API 服务，其中包括使用硅基流动等服务商 API。然而，由于部分 API 的稳定性问题或敏感词过滤机制，可能会导致某些问题无法获得答案，特此进行说明。