解析 DeepSeek-R1 训练过程——无需博士学位

前网易架构师-高司机

于 2025-02-24 14:05:15 发布

阅读量1k

点赞数 13

分类专栏： VIP专栏文章标签： DeepSeek

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pbymw8iwm/article/details/145827358

版权

GPT-4 的推出彻底改变了人工智能行业。但今天，与下一波推理模型（例如 OpenAI o1）相比，它感觉就像是 iPhone 4。

这些“推理模型”在推理时产生答案之前引入了思路链（CoT）思维阶段，从而提高了其推理性能。

OpenAI 一直对自己的方法秘而不宣，而 DeepSeek 则采取了相反的做法——公开分享他们的进展，并因坚持开源使命而赢得赞誉。或者正如 Marc 所说：

这个开源推理模型在数学、编码和逻辑推理等任务上与 OpenAI 的 o1 一样出色，这对开源社区……

我决定仔细研究一下 DeepSeek-R1 的训练过程。以他们的论文为指导，我把所有内容拼凑起来，并将其分解成任何人都可以理解的内容——无需 AI 博士学位。希望你会觉得它有用！

现在，让我们从基础开始。

快速入门

为了更好地理解 DeepSeek-R1 的主干，让我们介绍一下基础知识：

强化学习 (RL)：模型通过根据其行为获得奖励或惩罚来学习，通过反复试验不断改进。在 LLM 的背景下，这可能涉及传统的 RL 方法，如策略优化（例如近端策略优化，PPO
）、基于价值的方法或混合策略。

示例：在对“2 + 2 =”这样的提示进行训练时，模型会因输出“4”而获得 +1 的奖励，而对于任何其他答案则获得 -1 的惩罚。在现代 LLM 中，奖励通常由人工标记的反馈 (RLHF) 决定，或者我们很快就会了解到，使用自动评分方法。

监督微调 (SFT)：使用标记数据重新训练基础模型，以便在特定任务上表现更好。

示例：使用客户支持问题和答案的标记数据集对 LLM 进行微调，使其在处理常见查询时更加准确。如果你拥有大量标记数据，则非常适合使用。

冷启动数据：

用于帮助模型对任务有总体了解的最低限度标记数据集。 * 示例：使用从网站上抓取的 FAQ 对简单数据集对聊天机器人进行微调，以建立基础理解。当你没有大量标记数据时很有用。

多阶段训练：模型分阶段进行训练，每个阶段都侧重于特定的改进，例如准确性或对齐。

示例：在一般文本数据上训练模型，然后使用强化学习对用户反馈进行改进，以提高其对话能力。

拒绝抽样：一种模型生成多个潜在输出的方法，但只有符合特定标准（例如质量或相关性）的输出才会被选中以供进一步使用。

示例：在 RL 过程之后，模型会生成多个响应，但只保留对重新训练模型有用的响应。

第一个模型：DeepSeek-R1-Zero

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。