一、DeepSeek的GRPO
DeepSeek的GRPO(Group Relative Policy Optimization,群体相对策略优化)是一种强化学习算法,专门针对大语言模型的训练而设计,具有高效性和稳定性。以下是GRPO算法的核心特点和工作原理:
1、特点
1)无需价值函数模型:与传统的PPO(近端策略优化)算法不同,GRPO不依赖单独的价值函数模型来估计优势,而是通过基于组的奖励归一化来计算相对优势,从而简化了训练过程,降低了内存使用。
2)基于组的优势计算:GRPO为每个输入生成一组输出,并将该组的平均奖励作为基线。通过这种方式,GRPO能够更好地与奖励模型的成对比较性质保持一致,从而实现更准确的相对奖励估计。
3)直接的KL散度优化:GRPO将KL散度(Kullback-Leibler散度)直接集成到损失函数中,而不是像PPO那样将其纳入奖励信号。这种直接的优化方式可以更精细地控制模型的更新过程。
4)动态梯度正则化:GRPO通过动态梯度正则化约束策略更新的幅度,从而解决传统PPO算法在大规模模型训练中面临的数值不稳定问题。
2、GRPO的工作流程主要包括以下几个步骤:
1)采样:模型为每个输入生成多个输出。
2)奖励评分:每个输出通过奖励函数进行评分,这些评分可以是基于规则的(如格式或准确性)或基于结果的(如数学或编码的正确性)。
3&