1. RLHF中,PPO需要哪几个模型,分别是什么作用?
一般来说,PPO需要使用4个模型。
1.Actor模型:由SFT初始化,就是进行强化学习的主模型,是我们想要最终获得的模型;它不断产生action并被Critic模型所评价,计算loss进行训练。
2.Reference模型:一般也是从SFT模型初始化,RLHF中Reference模型并不更新参数,只是作为Actor模型的参考使用;通过约束Actor模型和Reference模型的KL penalty等,可以防止Actor模型被训得跑得太偏。
3.Reward模型:提前训练好的,对SFT模型进行打分的模型,RLHF中参数是冻结的。
4.Critic模型:一般由Reward模型进行初始化,参数可训练,用于预测Actor模型生成的token的收益。