DeepSeek-R1中训练使用的GRPO奖励函数详细讲解

一、GRPO优化目标详解

相比较PPO,GRPO(Group Relative Policy Optimization)的训练成本会更低,更简单。它通过最大化下面这个公式的目标来优化模型

DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_学习
,来自原论文  DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_Group_02

1.先理清楚参数的含义:

  1. DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_损失函数_03
    是神经网络,
    DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_学习_04
    表示网络参数.
  2. DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_概率分布_05
    表示组数,在训练时模型会输出
    DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_概率分布_05
    个response内容,一同计算loss.
  3. DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_概率分布_07
    是prompt。
  4. DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_概率分布_08
    表示第
    DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_Group_09
    个response。
  5. DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_Group_10
    是输入为
    DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_概率分布_07
    时,
    DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_概率分布_08
    的概率分布。
  6. DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解_学习_13
    是参数