《大规模语言模型从理论到实践》--强化学习（RLHF、PPO、DPO）

学会思考的乐趣

已于 2024-11-24 20:02:23 修改

阅读量1.5k

点赞数 17

文章标签：人工智能

于 2024-10-08 16:42:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42264784/article/details/142756271

版权

个人学习笔记，如有错误欢迎指出。

一、强化学习的意义

RLHF（Reinforcement Learning from Human Feedback）:强化学习（Reinforcement Learning）结合人类反馈（Human Feedback）来微调大语言模型。

大语言模型的训练步骤包括：预训练、指令微调（SFT）、对齐。

对齐（alignment）的含义是让 LLM 与人类的价值观保持一致。这就是 RLHF 的用武之地。

二、强化学习基本概念

2.1总体概念

智能体在环境中获取某个状态后，会根据该状态输出一个动作，也称为决策。动作会在环境中执行，环境会根据智能体采取的动作，给出下一个状态以及当前动作所带来的奖励。智能体的目标就是尽可能多地从环境中获取奖励。

2.2例子

例子1：

例子2：从机器狗学习抓飞盘的深入理解强化学习的概念

机器狗扔飞盘，机器狗形成了一个智能体。它会执行动作。飞盘的轨迹、速度构成了环境。机器狗根据当前环境反馈的关于飞盘的状态(S)来决定采取什么动作(A)。同时，根据机器狗所执行的动作，环境随后会给出一个反馈即奖励(R)。

机器狗根据不同的环境状态采取不同的动作的过程就是学习策略的过程，同时它会根据价值函数来预测自己所采取的行为可能带来的奖励是多少。

总体来说，强化学习的目标就是让智能体通过与环境的互动，学习到一个策略，使其能够在将来获得的奖励最大化。这使得强化学习不总是关注近期奖励，而是在短期的奖励与远期奖励之间找到平衡。

2.3相关概念详解

1.动作：可以分为离散动作空间、连续动作空间。

2.策略：将输入的状态变成动作。随机性策略：根据输入的状态利用概率分布采样一个动作。

确定性策略：智能体直接采取最有可能的动作。

3.价值函数：对未来奖励的预测。

4.智能体分类:基于价值的智能体（Value-based Agent）显式地学习价值函数，隐式地学习策略。基于策略的智能体（Policy-based Agent）则是直接学习策略函数。策略函数的输入为一个状态，输出为对应动作的概率。演员-评论员智能体（Actor-critic Agent）则是把基于价值的智能体和基于策略的智能体结合起来。

5.Trajectory：轨迹。也叫做Episode、Rollout，表示一连串状态和动作的序列

6.Return：回报。开始到结束的Reward的和。

由于演员采取哪一个动作以及环境转移到哪一个状态均以概率形式发生，因此轨迹τ 和对应回报 R(τ ) 均为随机变量，只能计算回报的期望。

7.策略梯度（PG）

个人总结：在强化学习中

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。