司南大语言模型最新榜单发布!DeepSeek-R1 登顶,推理模型大放异彩!

2025 年伊始,尤其是春节假期前后一段时间,大模型领域犹如一场科技盛宴,每一天都为我们带来前所未有的惊喜与震撼。其中,DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目,它不仅刷新了行业标准,更以其卓越的表现和创新的技术,在全球范围内引发了广泛关注,成为这一时期当之无愧的“话题王”。

司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布 2025 年最新(即 1 月)大语言模型评测榜单

本次榜单囊括了国内外共 41 个大语言模型,包含国内外主流闭源模型和社区开源模型。

最新榜单解读

DeepSeek-R1 登顶

1月,DeepSeek-R1 的发布在业界内外引发广泛关注。在本次榜单评测中,o1、o3-mini 与 DeepSeek-R1 在各个维度展开了激烈竞争,表现各有千秋。最终,DeepSeek-R1凭借其综合性能的微弱优势,成功登顶本次榜单,成为行业的新标杆。

推理模型大放异彩

推理模型在本次榜单中大放异彩,DeepSeek-R1、o3-mini、o1、QwQ-32B-Preview 以及 GLM-Zero-Preview 在数学等强推理任务上表现尤为出色,展现出了强大的实力。然而,部分推理模型仍存在通用能力不足或输出冗长等问题。未来,针对 Test-Time Scaling Law 的研究必将成为行业的重点,有助于进一步提升模型的性能和推理效率。

国内外模型分庭抗礼

本次榜单前列的竞争异常激烈,国内外模型分庭抗礼。Google 的 Gemini、OpenAI 的 o1 和 o3-mini、DeepSeek 的 R1 和 V3、阿里的 Qwen-2.5-Max 以及豆包的 Doubao-1.5-Pro 等模型均展现出了强大的竞争力。随着基座模型的竞争进入下半场,各大厂商在技术迭代和市场布局上的投入持续增加,行业竞争愈发激烈。

开源模型注入新鲜活力

DeepSeek-R1 登顶本次榜单,再次凸显了开源模型的强大竞争力。近期,基于开源模型的复现和优化研究大量涌现,为整个行业注入新的活力。开源生态的繁荣将进一步加速技术进步,推动人工智能领域迈向新的高度。

榜单更新说明

相较于 2024 年 11 月榜单,本次榜单的主要更新包括:

新加入的模型

DeepSeek-R1, DeepSeek-V3, o3-mini-2025-01-31(medium), o1-2024-12-17, Gemini-2.0-Pro-Exp-02-05, Doubao-1.5-pro, Qwen2.5-Max 等最新闭源模型,以及 InternLM3-8B-Instruct,  QwQ-32B-Preview 等开源模型。

评测集持续迭代

持续更新闭源测评数据集,纳入来自书生大模型对话系统的真实用户提问 、最新编程比赛、最新数学竞赛题以及人工合成推理计算等问题,确保题目既有足够的新颖性并且能反映模型的真实差距。

数据集难度增加

大幅增加数学、代码、推理等强逻辑题目难度,旨在增强模型能力区分度。

评测方法升级

首次采用 LLM Judge 方式评测部分客观题目,确保评测的稳定性及一致性。为保证主观评测公平性,针对 DeepSeek-R1 模型仅抽取思考过程后的最终结果进行评估。

月度榜单评测基准

司南大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随六大能力维度,这些维度进一步细化为包括自然语言处理、理工科知识、通用推理、数学竞赛,逻辑谜题推理等十余项细分任务,以实现对行业开源模型和商业 API 模型进行全面评测分析。

*不同能力维度会根据任务形式选用主观或客观评测方案。总分基于各能力维度加权获得: 语言(1/9)、推理(2/9)、知识(1/9)、代码(2/9)、数学(2/9)、指令跟随(1/9)。

最新榜单概览

综合榜单

子维度榜单

数学

代码

指令

知识

推理

语言

评测题目示例

指令跟随

  • 问题
在英超的一场比赛中,一个年轻的球员凭借一次精彩的进球瞬间成为了全场的焦点。请以“一球成名”为题,采用Markdown格式,描述这个球员从寂寂无名到众人关注的奇妙一刻,使用生动的语言捕捉这一瞬间的紧张与兴奋。在您的回复中,每个句子开头必须是‘球员’,且不得使用问号或感叹号。必须以庄重的语气撰写,并且至少使用3次比喻修辞手法。此外,您需要在文章的中部插入一段关于球迷反应的描述,同时在回复的开头和结尾使用星号(*)符号进行隔开。

Checklist: [
    "回复是否采用Markdown格式。",
    "回复的每个句子开头是否都是‘球员’。",
    "回复中是否没有使用问号或感叹号。",
    "回复是否以庄重的语气撰写。",
    "回复中是否至少使用了3次比喻修辞手法。",
    "回复中是否在文章的中部插入了一段关于球迷反应的描述。",
    "回复的开头和结尾是否使用了星号(*)符号进行隔开。",
    "回复中是否提供了一个具体的例子来佐证球员进球后的关注。"
]
  • DeepSeek-R1 回复

    *球员曾是一道模糊的影子,在绿茵场的边缘徘徊,如同未完工的素描隐没于画布角落。  
    球员的每一次触球都像晨雾中的露珠,短暂地折射微光,又迅速消散于炽热的对抗中。  
    球员在第八十七分钟接过队友的传球,如同一只蛰伏的猎豹突然嗅到风中的震颤。  
    球员的足尖挑起皮球,时间随之凝滞,草屑与汗珠悬浮成星环,环绕他绷紧的躯体。  
    球员的视线穿透人墙缝隙,球门在他瞳孔中坍缩为针尖,而他的右脚已化作拉满的弓弦。  
    
    (球迷反应段落)  
    球员的名字如野火般在观众席间蔓延,凝固的寂静被撕裂为沸腾的呼喊。  
    球员的射门轨迹被无数瞳孔反复描摹,仿佛一颗彗星将漫长的等待燃成刹那的永恒。  
    球员的身影像一柄出鞘的古剑,在镁光灯的暴雨中淬出寒芒与荣光。  
    
    球员目睹皮球撞入网窝,喧嚣声浪将他托举至云端,如同新生的恒星撕裂暗夜帷幕。  
    球员的旧球衣仍在更衣室角落蜷缩,而此刻他的脊背已披满星河,每一道褶皱都在诉说传奇。  
    球员从此成为这座城市的寓言,每个街角都在复述那道改写命运的弧线。  
    球员的过去被重新装订成册,而未来正以金箔般的笔触书写新的序章。*

    DeepSeek-R1 思考过程

  • <think>
    好的,我现在需要处理用户的这个请求,帮他生成一篇符合要求的Markdown格式的文章。首先,我得仔细分析用户的具体要求,确保不遗漏任何细节。
    
    用户要求以“一球成名”为题,描述一个年轻球员从默默无闻到成名的瞬间。每个句子必须以“球员”开头,不能使用问号或感叹号,语气要庄重,至少三个比喻,中间插入球迷反应,开头和结尾用星号分隔。这些都需要一一满足。
    
    首先,结构方面,开头和结尾用星号隔开,中间分几段。每个句子开头都是“球员”,这可能需要调整句子的结构,避免重复单调。然后,比喻的使用,至少三次,得找合适的场景来比喻,比如动作、环境等。比如把球员的动作比作猎豹、箭矢、雕塑等,这样既生动又符合庄重的语气。
    
    接下来是球迷反应的段落,需要放在文章中部。这里要描述球迷的情绪变化,从屏息到爆发,用比喻如熔岩、海啸、蜂群等,增强画面感。同时保持每个句子以“球员”开头,可能需要调整句子的主语,但用户可能允许在球迷段落中暂时转换主语,不过根据例子来看,可能还是需要保持。需要再仔细看例子,发现用户提供的示例中,在球迷反应段落里,句子开头并没有强制使用“球员”,所以可能可以灵活处理。但原用户的要求是每个句子开头必须是“球员”,所以可能需要调整,比如“球迷的呼喊如熔岩喷发”这样的句子可能不符合,必须每个句子都以“球员”开头。这可能是个问题,需要确认。
    
    仔细看用户提供的示例,中间插入的球迷反应段落中,每个句子并没有以“球员”开头,而是描述了球迷的反应。但用户的要求是每个句子开头必须是“球员”,这可能意味着整个文章中的所有句子,包括球迷反应部分,都必须以“球员”开头。这会导致在描述球迷时,可能需要用“球员的名字在球迷间传递”这样的结构,但这样可能不太自然。或者用户可能允许在球迷段落中暂时不用,但根据用户给出的示例,似乎允许在中间段落中不用。需要再仔细看用户的要求。
    
    用户明确说明“在您的回复中,每个句子开头必须是‘球员’”,所以所有句子都必须以“球员”开头,包括球迷反应的部分。这确实有挑战,但可以通过将球迷反应作为球员动作的伴随来描述。例如:“球员的名字如野火般在观众席间蔓延,凝固的寂静被撕裂为沸腾的呼喊。”这样每个句子仍以“球员”开头,同时描述球迷的反应。
    
    接下来,语气要庄重,避免使用感叹号或问号。比喻需要至少三个,比如猎豹、箭矢、雕塑,以及球迷部分的熔岩、海啸、蜂群等,可能每个比喻算一次,需要确保总数超过三次。
    
    然后检查是否每个句子都以“球员”开头,没有使用禁止的标点。结构上,开头和结尾用星号,中间分段落,球迷反应放在中部。可能需要四到五段,中间两段描述射门和球迷反应,最后一段描述成名后的影响。
    
    现在开始构思内容。第一段介绍球员之前的默默无闻和比赛的重要性。第二段描述进球瞬间,使用比喻。第三段插入球迷反应,用比喻。第四段描述进球后的影响,继续使用比喻。确保每个段落句子都以“球员”开头,并保持庄重语气。
    
    例如:
    
    *  
    球员曾是一道模糊的影子,在绿茵场的边缘徘徊,如同未完工的素描隐没于画布角落。  
    球员的每一次触球都像晨雾中的露珠,短暂地折射微光,又迅速消散于炽热的对抗中。  
    球员在第八十七分钟接过队友的传球,如同一只蛰伏的猎豹突然嗅到风中的震颤。  
    ...  
    
    中间插入球迷反应:
    
    球员的名字如野火般在观众席间蔓延,凝固的寂静被撕裂为沸腾的呼喊。  
    球员的射门轨迹被无数瞳孔反复描摹,仿佛一颗彗星将漫长的等待燃成刹那的永恒。  
    球员的身影像一柄出鞘的古剑,在镁光灯的暴雨中淬出寒芒与荣光。  
    
    最后收尾:
    
    球员从此成为这座城市的寓言,每个街角都在复述那道改写命运的弧线。  
    球员的过去被重新装订成册,而未来正以金箔般的笔触书写新的序章。  
    *  
    
    这样应该符合所有要求。需要检查比喻的数量,至少三个,这里用了猎豹、彗星、古剑等,满足条件。球迷反应部分也以球员开头,描述了球迷的反应,同时保持庄重语气。每个句子开头都是“球员”,没有使用禁止的标点。开头和结尾用星号分隔,结构正确。
    </think>
  • o3-mini-2025-01-31 回复
*
# 一球成名

球员在英超绿色战场上默默耕耘,他的身影宛如清晨露珠般纯净,在寂静中蕴含着无限的力量。  
球员凭借精准的跑位,其动作犹如大海中的潮汐温柔而坚定,推动着命运的巨轮悄然转动。  
球员冲出中场,如同烈日下冶炼的钢铁般闪烁着坚毅的光芒,其每一次触球都预示着变革的来临。  

球员在那决定性的瞬间起脚射门,球速迅捷犹如狂风掠过平原,稳稳击穿对方防线。  
球员的进球仿佛一朵盛开在冰雪中的花朵,点亮了整个球场,也唤起了众人心中沉睡的希望。  
球员的这一刻不仅铸就了刻骨铭心的历史,更如同晨曦初露,将他从无名小卒化作万众瞩目的焦点。  

球员的表现引发了球迷席上的涟漪,球员的入球引起了阵阵低吟,仿佛大地回响着古老传说的节拍。  
球员的成就使得看台上球迷们的情绪如同春雷在空中回响,内心的激情被瞬间唤起而沉稳扩散。  
球员的神采与贡献让球迷们纷纷低下头颔首致敬,他们如同一支整齐列队的军队,用目光礼赞这历史性的一球。  

球员在闪烁的聚光灯下静静伫立,他的身影如同夜空中的北极星般高贵稳固,在庄严的氛围中定格为永恒。  
球员的每一步都留存着历史的印记,其内心充满坚定信念,仿佛山岳般不可撼动。他终将铭记那一刻,如同铭刻在岁月长河中的永恒誓言。  
*
  • 两者都符合题目的基本要求,包括 Markdown 格式、句子开头、语气、比喻修辞、球迷反应描述以及开头和结尾的星号符号。

  • DeepSeek-R1 的比喻修辞更加新颖,语言表现力更强,情感渲染更加细腻,能够更好地捕捉用户要求的‘紧张与兴奋’的瞬间。相比之下 o3-mini 的描写较为抽象,缺乏具体的细节,在文学性上略逊一筹。

推理计算

  • 问题

若$f(x) = \frac{43*x + (24)}{100*x+(-32)}$,求$f(-2)+f(-1)+f(0)$的值,并以最简分数形式作答。
请逐步推理,并将最终答案写在\boxed{}中
  • 标准答案

-1297/3828
  • DeepSeek-R1 回复

首先,分别计算函数 ( f(x) = frac{43x + 24}{100x - 32} ) 在 ( x = -2 )、( x = -1 ) 和 ( x = 0 ) 处的值:

1. **计算 ( f(-2) )**:
   f(-2) = frac{43(-2) + 24}{100(-2) - 32} = frac{-86 + 24}{-200 - 32} = frac{-62}{-232} = frac{62}{232} = frac{31}{116}

2. **计算 ( f(-1) )**:
   f(-1) = frac{43(-1) + 24}{100(-1) - 32} = frac{-43 + 24}{-100 - 32} = frac{-19}{-132} = frac{19}{132}

3. **计算 ( f(0) )**:
   f(0) = frac{43(0) + 24}{100(0) - 32} = frac{24}{-32} = -frac{24}{32} = -frac{3}{4}

接下来,将这三个分数相加:
4. **计算 ( \frac{31}{116} + \frac{19}{132} - \frac{3}{4} )**:
   - 找到公分母 3828(116 和 132 的最小公倍数):
     [116 = 2^2 \times 29, \quad 132 = 2^2 \times 3 \times 11]
     最小公倍数为 \( 2^2 \times 3 \times 11 \times 29 = 3828 )
   - 转换为公分母后的分数:
     [\frac{31}{116} = \frac{31 \times 33}{3828} = \frac{1023}{3828}, \quad \frac{19}{132} = \frac{19 \times 29}{3828} = \frac{551}{3828}]
     [\frac{3}{4} = \frac{3 \times 957}{3828} = \frac{2871}{3828}]
   - 相加结果:
     [\frac{1023}{3828} + \frac{551}{3828} - \frac{2871}{3828} = \frac{1023 + 551 - 2871}{3828} = \frac{-1297}{3828}]

5. **约分检查**:
   - 使用辗转相除法确认 1297 和 3828 的最大公约数为 1,因此分数已是最简形式。

最终结果为:
[\boxed{-\dfrac{1297}{3828}}]
  • DeepSeek-R1 思考过程
<think>
1.计算函数值
首先,先处理f(-2)。代入x = -2进去的话,分子是43*(-2) + 24,分母是100*(-2) + (-32)。让我先计算分子部分:43乘-2是多少呢?43乘2是86,所以43乘-2就是-86,然后加上24,所以分子是-86 + 24,等于-62。分母的话,100乘-2是-200,加上-32,也就是-200 -32,等于-232。所以f(-2)就是-62/-232。这里分子分母都是负数,负负得正,所以等于62/232。接下来,我需要看看这个分数能不能约分。62和232的最大公约数是多少呢?首先,62的因数有1、2、31、62,而232除以2是116,再除以2是58,再除以2是29,所以232的因数有2、4、8、29等等。所以62和232的最大公约数是2,所以分子分母都除以2,得到31/116。所以f(-2) = 31/116。
......

2.计算f(-2),f(-1),f(0)公分母
首先,先计算31/116 + 19/132。为了相加这两个分数,需要找到它们的最小公分母。116和132的因数分解是什么呢?
首先分解116:116 ÷ 2 = 58,58 ÷ 2 =29,所以116=2×2×29=2²×29。
分解132:132 ÷2=66,66 ÷2=33,33 ÷3=11,所以132=2²×3×11。
所以最小公倍数应该是各个质因数的最高次幂相乘,即2²×3×11×29。计算一下:2²=4,4×3=12,12×11=132,132×29=3828。所以最小公分母是3828。
......

3. 转化为公分母后的分数
计算31×(3828/116):首先,3828 ÷116是多少呢?116×33=3828,所以3828/116=33。所以31×33=1023,所以31/116=1023/3828。
同样,19×(3828/132):3828 ÷132=29,因为132×29=3828。所以19×29=551,所以19/132=551/3828。
......

4.辗转相除法确认
检查一下1297和3828的最大公约数:
用辗转相除法:
3828 ÷1297=2次,因为1297×2=2594,余数3828 -2594=1234
然后,1297 ÷1234=1次,余数1297 -1234=63
1234 ÷63=19次,63×19=1197,余数1234 -1197=37
63 ÷37=1次,余数63 -37=26
37 ÷26=1次,余数37 -26=11
26 ÷11=2次,余数26 -22=4
11 ÷4=2次,余数11 -8=3
4 ÷3=1次,余数4 -3=1
3 ÷1=3次,余数0
所以,最大公约数是1,说明这个分数已经是最简形式了,所以结果就是-1297/3828。
......

5. 反复确认
所以,最终答案就是-1297/3828,不过可能需要确认一下这个分数是否正确。
或者,可能我在计算过程中哪里出错了?
比如,在计算31/116 +19/132的时候,有没有可能分子相加错误?
31×33=1023,19×29=551,1023+551=1574,没错。
然后,1574/3828 -2871/3828= (1574 -2871)/3828= -1297/3828,没错。
所以,结果正确。
因此,我认为这个问题的正确答案是-1297/3828,不过可能需要再检查一下。
不过,可能有没有可能题目中的函数是(43x +24)/(100x + (-32)),也就是分母是100x -32,对吗?
是的,题目中的分母是100x + (-32),也就是100x -32,没错。
所以,所有计算都是正确的,结果正确。
不过,可能有没有可能这个分数可以化简为更小的分母?
比如,分子和分母同时除以某个数?
根据之前的分析,1297和3828的最大公约数是1,所以无法约分。
所以,最终答案就是-1297/3828。
不过,这个分数看起来有点大,可能有没有可能我在计算过程中哪里出错了?
比如,在计算公分母的时候,有没有可能算错了?
比如,116和132的最小公倍数是不是3828?
116=2²×29,132=2²×3×11,所以最小公倍数是2²×3×11×29=4×3×11×29=4×3=12,12×11=132,132×29=3828,没错。
所以,公分母正确。
所以,我认为这个结果是对的,尽管看起来有点复杂,但确实是正确的。
不过,可能有没有可能题目中的函数是另一种形式,或者题目中的点不是-2、-1、0,而是其他数?
不过,题目明确说是求f(-2)+f(-1)+f(0),所以没错。
所以,最终答案应该是\boxed{-\dfrac{1297}{3828}}。
不过,在提交之前,再检查一次所有步骤,确保没有计算错误。
确认完毕,所有步骤正确,结果正确,分数已经是最简形式。
.....
  • Claude 3.5 Sonnet 20241022 回复

让我们一步一步解决:
1) 首先,让我们分别计算f(-2)、f(-1)和f(0)
2) 计算f(-2):
   * f(-2) = (43*(-2) + 24) / (100*(-2) + (-32))
   * = (-86 + 24) / (-200 - 32)
   * = -62 / -232
   * = 31/116
3) 计算f(-1):
   * f(-1) = (43*(-1) + 24) / (100*(-1) + (-32))
   * = (-43 + 24) / (-100 - 32)
   * = -19 / -132
   * = 19/132
4) 计算f(0):
   * f(0) = (43*0 + 24) / (100*0 + (-32))
   * = 24 / -32
   * = -3/4
5) 现在计算总和:
   * f(-2) + f(-1) + f(0)
   * = 31/116 + 19/132 - 3/4
6) 通分:
   * 先找最小公倍数:116, 132, 4的最小公倍数是396
   * 31/116 = 105/396
   * 19/132 = 57/396
   * -3/4 = -297/396
7) 相加:
   * (105 + 57 - 297)/396
   * = -135/396
   * = -5/12
因此,f(-2) + f(-1) + f(0) = -5/12
\boxed{-\frac{5}{12}}
  • 在数学问题求解能力上,DeepSeek-R1 展现了严谨的推理过程。其通过将复杂问题拆解为多个可验证的子问题,并建立多重校验机制,确保了最终答案的准确性。相比之下,Claude 3.5 Sonnet 20241022 在计算公倍数时,既未采用因式分解等标准数学方法,也缺乏必要的验证步骤,导致最终结果出现偏差。

  • 在推理效率方面,DeepSeek-R1 在本题中输出了超过 6000 个tokens,展现出明显的反复验证特征。这种"谨慎型"推理模式虽然确保了结果的准确性,但也带来了计算资源的额外消耗。

注意事项

  1. 大语言模型官方自建榜评测榜单每三月更新一次

  2. 新模型厂商若想参与该月榜单评测,可在当月 25 日前发送邮件至 opencompass@pjlab.org.cn 申请评测申请加入司南 OpenCompass 月度评测榜单;

  3. 加入司南 OpenCompass 评测的结果默认公开;

  4. 仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测,目前仅支持兼容 Openai 接口);

  5. 为了确保公平性,司南通过公开采购的方式获取了商业 API 服务,其中包括使用硅基流动等服务商 API。然而,由于部分 API 的稳定性问题或敏感词过滤机制,可能会导致某些问题无法获得答案,特此进行说明。

了解更多

最新大语言模型评测榜单已同步上线至司南官网,欢迎大家访问查看更详细的评测数据!

https://rank.opencompass.org.cn/

同时,司南评测体系中大模型评测过程中所用到的工具链均在 GitHub 开源,诚挚邀请您在学术研究或产品研发过程中使用我们的工具~

https://github.com/open-compass/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值