GPT-4 的推出彻底改变了人工智能行业。但今天,与下一波推理模型(例如 OpenAI o1)相比,它感觉就像是 iPhone 4。
这些“推理模型”在推理时产生答案之前引入了思路链(CoT)思维阶段,从而提高了其推理性能。
OpenAI 一直对自己的方法秘而不宣,而 DeepSeek 则采取了相反的做法——公开分享他们的进展,并因坚持开源使命而赢得赞誉。或者正如 Marc 所说:
这个开源推理模型在数学、编码和逻辑推理等任务上与 OpenAI 的 o1 一样出色,这对开源社区……
我决定仔细研究一下 DeepSeek-R1 的训练过程。以他们的论文为指导,我把所有内容拼凑起来,并将其分解成任何人都可以理解的内容——无需 AI 博士学位。希望你会觉得它有用!
现在,让我们从基础开始。
快速入门
为了更好地理解 DeepSeek-R1 的主干,让我们介绍一下基础知识:
强化学习 (RL):模型通过根据其行为获得奖励或惩罚来学习,通过反复试验不断改进。在 LLM 的背景下,这可能涉及传统的 RL 方法