
RLXF
文章平均质量分 92
有关对齐的一切,为了让 AI 更加安全强大
阿姆姆姆姆姆姆姆
庾信平生无萧瑟,暮年诗赋动江关。
展开
-
RLAIF(0)—— DPO(Direct Preference Optimization) 原理与代码解读
之前的系列文章:介绍了 RLHF 里用到 Reward Model、PPO 算法。但是这种传统的 RLHF 算法存在以下问题:流程复杂,需要多个中间模型对超参数很敏感,导致模型训练的结果不稳定。斯坦福大学提出了 DPO 算法,尝试解决上面的问题,DPO 算法的思想也被后面 RLAIF(AI反馈强化学习)的算法借鉴,这个系列会从 DPO 开始,介绍 SPIN、self-reward model 算法。而 DPO 本身是一种不需要强化学习的算法,简化了整个 RLHF 流程,训练起来会更简单。原创 2024-03-09 16:04:41 · 4433 阅读 · 0 评论 -
DeepSpeed-Chat RLHF 阶段代码解读(2) —— PPO 阶段
Critic model、Reward model: 开始的时候这两个模型是一样的,但是用途是不一样的,一个是用来产生 critic value,一个是用来产生 reward 的,虽然结构是一样的。整个流程下来,我的感觉,很繁琐,难训练,所以目前主流大模型很少使用原始的这套 RLHF 流程,更多使用 dpo 算法,而且 RLHF 的数据有限,很难对所有的 response 有一个公平的 rewar,所以下一个系列文章会介绍利用 dpo 的 RLAIF 算法,如 SPIN、self-reward etc。原创 2024-03-08 09:50:27 · 1813 阅读 · 1 评论 -
DeepSpeed-Chat RLHF 阶段代码解读(1) —— 奖励函数阶段
在一文中,我们了解了 PPO 的原理和实现。本篇文章,我们来看 RLHF 里 Reward Model 的实现,为 PPO 应用到 RLHF 里做好前置准备。我们知道在原始 PPO 里,采取某种策略产生的奖励是由环境决定的,可以理解为内置的。原创 2024-03-07 10:02:49 · 1695 阅读 · 1 评论 -
DeepSpeed-Chat RLHF 阶段代码解读(0) —— 原始 PPO 代码解读
为了理解 DeepSpeed-Chat RLHF 的 RLHF 全部过程,这个系列会分三篇文章分别介绍:原始 PPO 代码解读RLHF 奖励函数代码解读RLHF PPO 代码解读。原创 2024-03-03 11:27:32 · 1151 阅读 · 0 评论