SsR.XX-CSDN博客

原创直接偏好优化算法（Direct Preference Optimization，DPO）

基于**人类反馈的强化学习（RLHF）**是一个复杂且不稳定的过程，首先拟合一个反映人类偏好的奖励模型，然后使用强化学习对大语言模型进行微调，以最大限度地提高估计奖励，同时又不能偏离原始模型太远。这涉及训练多个 LM，并在训练循环中从 LM 采样，从而产生大量的计算成本。本文作者提出了**直接偏好优化（DPO）**算法，它稳定、高效且计算量轻，。实验表明，DPO 可以微调 LMs，使其与人类偏好保持一致，与现有方法一样或更好。

2023-11-21 11:03:06 6389

原创用于图网络的传统机器学习方法（CS224W课程笔记)

图的传统手工特征

2022-03-13 14:43:39 1527

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 直接偏好优化算法（Direct Preference Optimization，DPO）

原创 用于图网络的传统机器学习方法（CS224W课程笔记)

空空如也

空空如也

原创直接偏好优化算法（Direct Preference Optimization，DPO）

原创用于图网络的传统机器学习方法（CS224W课程笔记)