DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析
一、相同点
-
核心训练方法:
-
两者均基于强化学习(RL),采用 Group Relative Policy Optimization(GRPO) 算法,通过组内样本的奖励相对比较优化策略模型。
-
目标均为提升语言模型的复杂推理能力(如数学、代码、科学推理)。
-
-
基础模型:
-
均以 DeepSeek-V3-Base 作为初始模型,共享相同的架构
-
核心训练方法:
两者均基于强化学习(RL),采用 Group Relative Policy Optimization(GRPO) 算法,通过组内样本的奖励相对比较优化策略模型。
目标均为提升语言模型的复杂推理能力(如数学、代码、科学推理)。
基础模型:
均以 DeepSeek-V3-Base 作为初始模型,共享相同的架构