GPT-4 的推出彻底改变了人工智能行业。但今天,与下一波推理模型(例如 OpenAI o1)相比,它感觉就像是 iPhone 4。
这些“推理模型”在推理时产生答案之前引入了思路链(CoT)思维阶段,从而提高了其推理性能。
OpenAI 一直对自己的方法秘而不宣,而 DeepSeek 则采取了相反的做法——公开分享他们的进展,并因坚持开源使命而赢得赞誉。或者正如 Marc 所说:
这个开源推理模型在数学、编码和逻辑推理等任务上与 OpenAI 的 o1 一样出色,这对开源社区……
我决定仔细研究一下 DeepSeek-R1 的训练过程。以他们的论文为指导,我把所有内容拼凑起来,并将其分解成任何人都可以理解的内容——无需 AI 博士学位。希望你会觉得它有用!
现在,让我们从基础开始。
快速入门
为了更好地理解 DeepSeek-R1 的主干,让我们介绍一下基础知识:
强化学习 (RL):模型通过根据其行为获得奖励或惩罚来学习,通过反复试验不断改进。在 LLM 的背景下,这可能涉及传统的 RL 方法,如策略优化(例如近端策略优化,PPO
)、基于价值的方法或混合策略。
示例:在对“2 + 2 =”这样的提示进行训练时,模型会因输出“4”而获得 +1 的奖励,而对于任何其他答案则获得 -1 的惩罚。在现代 LLM 中,奖励通常由人工标记的反馈 (RLHF) 决定,或者我们很快就会了解到,使用自动评分方法。
监督微调 (SFT):使用标记数据重新训练基础模型,以便在特定任务上表现更好。
示例:使用客户支持问题和答案的标记数据集对 LLM 进行微调,使其在处理常见查询时更加准确。如果你拥有大量标记数据,则非常适合使用。
冷启动数据:
用于帮助模型对任务有总体了解的最低限度标记数据集。 * 示例:使用从网站上抓取的 FAQ 对简单数据集对聊天机器人进行微调,以建立基础理解。当你没有大量标记数据时很有用。
多阶段训练:模型分阶段进行训练,每个阶段都侧重于特定的改进,例如准确性或对齐。
示例:在一般文本数据上训练模型,然后使用强化学习对用户反馈进行改进,以提高其对话能力。
拒绝抽样:一种模型生成多个潜在输出的方法,但只有符合特定标准(例如质量或相关性)的输出才会被选中以供进一步使用。
示例:在 RL 过程之后,模型会生成多个响应,但只保留对重新训练模型有用的响应。