- 博客(2)
- 收藏
- 关注
原创 直接偏好优化算法(Direct Preference Optimization,DPO)
基于**人类反馈的强化学习(RLHF)**是一个复杂且不稳定的过程,首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大语言模型进行微调,以最大限度地提高估计奖励,同时又不能偏离原始模型太远。这涉及训练多个 LM,并在训练循环中从 LM 采样,从而产生大量的计算成本。本文作者提出了**直接偏好优化(DPO)**算法,它稳定、高效且计算量轻,。实验表明,DPO 可以微调 LMs,使其与人类偏好保持一致,与现有方法一样或更好。
2023-11-21 11:03:06 5358
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人