deepseek-R1架构和训练流程总结

deepseek-R1是对open ai o1的开源复现路径之一,非常火热,实际使用也是碾压o1。
这带来了新的用户使用范式,以往用户都期望大模型能够快速返回结果,超过十几秒就无法忍受。但R1的到来使得普通用户都非常乐意看到大模型等待几分钟再回答的情况。

记得o1刚出来时,都再猜是怎么实现的,我接触到的观点是将COT数据放在了模型内部的强化学习上,使用强化学习迫使模型内部产生思考。
感谢ds,真正开源了o1类模型。

本文将介绍训练和测试的scaling laws,奖励学习的两种reward方式,deepseek-r1的实现流程等。

训练的缩放定律

模型性能与参数量,计算量,数据量密切相关。
在这里插入图片描述

推理的缩放定律

推理时间越长表现越好。由此用户终于接受了等待。
在这里插入图片描述

reward的两种方式

可分为ORM和PRM。

结果奖励模型(Outcome Reward Model,ORM)

ORM 是对生成结果整体进行打分评估的模型。它关注的是最终生成结果的质量,而不考虑生成过程中的中间步骤。
ORM 适用于结果导向的任务,如文本生成、图像生成等。

流程奖励模型(Process Reward Model,PRM)

PRM 是在生成过程中对每一步进行打分的模型。它关注生成过程中的每一步推理和思考,提供更细粒度的反馈。
PRM 适用于需要逐步推理的任务,如数学问题求解、逻辑推理等。

DeepSeek-R1的训练流程

概述:
deepseek-r1-zero:实验性质的模型。基于deepseek-v3-base,先使用纯RL,也就是GRPO算法训练一版模型,看看有没有推理能力。得到了deepseek-r1-zero。
这里的系统提示词加了< think >标记,以指示模型进行思考。
奖励模型使用了函数替代,分别是格式奖励和答案奖励。
在这里插入图片描述

R1的流程

冷启动->面向推理的强化学习->拒绝取样->监督微调->适用于所有场景的强化学习。

1.冷启动

使用小型高质量推理数据集(≈5,000个token)对 DeepSeek-V3-Base 进行微调,得到了deepseek-v3-1。这样做是为了防止冷启动问题导致可读性差。因为在zero中发现中英混杂,可读性差等情况。
在这里插入图片描述

2.面向推理的强化学习

对deepseek-v3-1做纯强化学习,使用了格式奖励、答案奖励、语言一致性奖励,得到deepseek-v3-2。
在这里插入图片描述

3.拒绝采样

拒绝采样就是使用模型生成若干样本,采取某些条件过滤低质量样本。
在这部分,首先使用deepseek-v3-2生成若干推理数据,然后使用deepseek-v3-base作为奖励模型,以及使用规则,对这些推理数据进行筛选,得到60w条高质量推理样本。
同时使用deepseek-v3-base生成了大量qa数据,和部分训练数据,创建了20万个非推理样本。

在这里插入图片描述

4.SFT

使用上述的80w数据,对deepseek-v3-base进行SFT,得到初步的R1。
在这里插入图片描述

5.适用于所有场景的强化学习

这部分使用纯RL进行。
奖励来自于格式奖励、答案奖励,同时加上了一个奖励模型,要求有益、无害、符合人类价值观。
在这里插入图片描述

参考:
1.https://mp.weixin.qq.com/s/ytKTGTgU2T7jSNrBghX1cA
2.https://blog.csdn.net/wxc971231/article/details/135445734

### DeepSeek-R1 架构详解 DeepSeek-R1 是一种基于大型语言模型的改进版本,其设计目标在于解决前代模型(如 DeepSeek-R1-Zero)中存在的不足之处,特别是在可读性多语言支持方面的局限性[^1]。为了实现这一目标,DeepSeek-R1 采用了多阶段训练策略以及优化的数据处理方法。 #### 多阶段训练机制 DeepSeek-R1 的核心优势之一来自于其独特的多阶段训练流程。这种训练方式不仅增强了模型的基础推理能力,还使其能够在复杂场景下生成更高质量的内容[^2]。以下是关于多阶段训练的一些关键特性: - **初始预训练阶段** 初始阶段利用大规模无标注语料库进行自监督学习,帮助模型建立对自然语言的理解基础。此过程中的冷启动数据(cold-start data)起到了至关重要的作用,它为后续微调提供了坚实的知识框架。 - **强化学习与人类反馈结合** 在第二阶段,引入了来自真实用户的交互数据专家评估信号作为奖励函数的一部分,从而指导模型向更具实用价值的方向发展。这种方法有效提升了最终输出内容的相关度及逻辑连贯性。 #### 结构化答案生成技术 除了先进的训练方案外,DeepSeek-R1 还特别注重如何以清晰易懂的形式呈现信息给终端用户。为此,开发团队专门设计了一套用于构建结构化响应的技术栈,使得即使面对高度抽象的概念解释需求时也能保持良好的用户体验水平。 具体来说,在实际应用过程中当接收到查询请求后,系统会自动分析输入文本特征并据此动态调整内部参数配置;与此同时还会检索关联数据库内的海量背景资料加以辅助说明——如此一来便可以确保每一个回复都既精准又详尽。 ```python def generate_structured_response(query, model_parameters): """ Generates a structured response based on the given query and model parameters. Args: query (str): The input question or statement from the user. model_parameters (dict): Configuration settings for adjusting the behavior of the language model. Returns: str: A well-formatted answer enriched with contextual information. """ analyzed_features = analyze_text(query) adjusted_params = adjust_model_settings(analyzed_features, model_parameters) retrieved_background = fetch_relevant_information(adjusted_params) final_output = compile_final_answer(retrieved_background, query) return final_output ``` 上述代码片段展示了简化版的结构化应答生成逻辑概览。其中涉及到了几个重要环节:首先是针对提问者的原始表述做初步解析操作 (`analyze_text`) ,接着依据所得结果修改相应的工作模式设定(`adjust_model_settings`),最后再综合考虑提取出来的补充素材完成整个答复组装工作(`compile_final_answer`)。 综上所述,通过采用创新性的多轮迭代式学习路径再加上精心打磨过的表达形式转换算法,DeepSeek-R1 成功实现了相较于前辈产品更为卓越的表现效果.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值