一文解读DeepSeek-R1论文技术突破点:纯强化学习训练带给模型顿悟的推理思考能力

时隔不到一个月,DeepSeek又一次震动全球AI圈。去年 12 月,DeepSeek推出的DeepSeek-V3在全球AI领域掀起了巨大的波澜,它以极低的训练成本,实现了与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能。和上次不同的是,这次推出的新模型DeepSeek-R1不仅成本低,更是在技术上有了大幅提升。而且,它还是一个开源模型。这款新模型延续了其高性价比的优势,仅用十分之一的成本就达到了GPT-o1级别的表现。所以,很多业内人士甚至喊出了“DeepSeek接班OpenAI”的口号。

在这里插入图片描述

本文关注DeepSeek-R1在技术上最重要的突破——用纯深度学习的方法让AI自发涌现出推理能力。这一研究可能会对模型推理训练后续的范式产生深刻影响。

DeepSeek-R1技术上的突破

直接强化学习训练

在o1推出之后,推理强化成了业界最关注的方法。一般来说,一个模型在训练过程中只会尝试一种固定训练方法来提升推理能力。而DeepSeek团队在R1的训练过程中,直接一次性实验了三种截然不同的技术路径,还都成功了:

  • 直接强化学习训练(R1-Zero)
  • 多阶段渐进训练(R1)
  • 模型蒸馏。

多阶段渐进训练方法和模型蒸馏都包含着很多创新意义元素,对行业有着重要影响。其中最让人激动的,还是直接强化学习这个路径。因为DeepSeek-R1是首个证明这一方法有效的模型。

我们先来了解一下,训练AI的推理能力传统的方法通常是什么:一般是通过在SFT(监督微调)加入大量的思维链(COT)范例,用例证和复杂的如过程奖励模型(PRM)之类的复杂神经网络奖励模型,来让模型学会用思维链思考。

SFT(监督微调)指的是对已经预训练的模型进行特定任务的训练,以提高其在该任务上的表现。这个过程通常涉及利用特定任务的数据,对已经在大量通用数据上训练完成的预训练模型进行进一步调整,使其更适合该任务,也更好地适应最终任务和对齐用户偏好。
SFT高度依赖高质量的标注数据,数据的收集和标注工作往往需要耗费大量的人力、物力和时间

思维链(CoT)是指把逻辑较为复杂的问题进行拆解,通过一系列有逻辑关系的思考,形成完整的思考过程。它旨在通过向大语言模型展示少量的样例,并通过这些样例解释推理过程ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值