1.PPO(近端策略优化算法)教程
比较容易听懂,数学公式很多,讲的比较细,可以多看几遍。
原理:
训练:
代码实现大模型强化学习(PPO),看这个视频就够了。_哔哩哔哩_bilibili
2.DPO(直接偏好优化)教程
DPO (Direct Preference Optimization) 算法讲解_哔哩哔哩_bilibili
比较容易听懂,数学公式很多,讲的比较细,可以多看几遍。
原理:
训练:
代码实现大模型强化学习(PPO),看这个视频就够了。_哔哩哔哩_bilibili
DPO (Direct Preference Optimization) 算法讲解_哔哩哔哩_bilibili