一文搞懂DeepSeek - 结合冷启动的强化学习
原创 AllenTang 架构师带你玩转AI 2025年02月02日 23:41
受DeepSeek-R1-Zero积极成果的启发,DeepSeek-R1自然而然地提出了两个问题:
(1)通过引入少量高质量数据作为冷启动,能否进一步提高推理性能或加速收敛?
(2)如何训练一个既能够产生清晰连贯的思维链(Chains of Thought, CoT),又展现出强大通用能力的用户友好型模型?
原创 AllenTang 架构师带你玩转AI 2025年02月02日 23:41
受DeepSeek-R1-Zero积极成果的启发,DeepSeek-R1自然而然地提出了两个问题:
(1)通过引入少量高质量数据作为冷启动,能否进一步提高推理性能或加速收敛?
(2)如何训练一个既能够产生清晰连贯的思维链(Chains of Thought, CoT),又展现出强大通用能力的用户友好型模型?