大规模语言模型人类反馈对齐--PPO算法代码实践

在前面的章节我们已经知道,人类反馈强化学习机制主要包括策略模型、奖励模型、评论模型以及参考模型等部分。需要考 虑奖励模型设计、环境交互以及代理训练的挑战, 同时叠加大语言模型的高昂的试错成本。对于研究人员来说, 使用人类反馈强化学习面临非常大的挑战。RLHF 的稳定训练需要大量的经验和技巧。RLHF 的稳定训练需要大 量的经验和技巧,下面针对 PPO 算法的内部工作原理进行代码示意性分析。

奖励模型训练

奖励模型训练损失代码, 不仅需要拉大奖励模型在 chosen 和 rejected 回复分数上的差距, 也可以将在chosen 数据上的生成损失加入到最终的优化目标中。

PPO 微调

PPO 微调阶段涉及到四个模型, 分别是策略模型、评论模型、奖励模型和参考模型。首先加载这四个模型。

在模型加载完成后对策略模型和评论家模型进行封装, 这两个模型会进行训练并且更新模型参数, 奖励模 型和参考模型则不参与训练。

接下来将进行经验采样的过程, 分为以下几个步骤:(1) 读取输入数据, 并使用策略模型生成对应回复;(2) 使 用奖励模型对回复进行打分;(3) 将回复和策略模型输出概率等信息记录到经验缓冲区内。

然后, 使用广义优势估计算法, 基于经验缓冲区中的数据来计算优势 (Advantages) 和回报 (Return)。将估计 值重新使用 data_helper 进行封装,来对策略模型和评论模型进行训练。

ps: 欢迎扫码关注公众号^_^.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值