个人学习笔记,如有错误欢迎指出。
一、强化学习的意义
RLHF(Reinforcement Learning from Human Feedback):强化学习(Reinforcement Learning)结合人类反馈(Human Feedback)来微调大语言模型。
大语言模型的训练步骤包括:预训练、指令微调(SFT)、对齐。
对齐(alignment)的含义是让 LLM 与人类的价值观保持一致。这就是 RLHF 的用武之地。
二、强化学习基本概念
2.1总体概念
智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策。 动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态以及当前动作所带来的奖励。智能体的目标就是尽可能多地从环境中获取奖励。
2.2例子
例子1:
例子2:从机器狗学习抓飞盘的深入理解强化学习的概念
机器狗扔飞盘,机器狗形成了一个智能体。它会执行动作。飞盘的轨迹、速度构成了环境。机器狗根据当前环境反馈的关于飞盘的状态(S)来决定采取什么动作(A)。同时,根据机器狗所执行的动作,环境随后会给出一个反馈即奖励(R)。
机器狗根据不同的环境状态采取不同的动作的过程就是学习策略的过程,同时它会根据价值函数来预测自己所采取的行为可能带来的奖励是多少。
总体来说,强化学习的目标就是让智能体通过与环境的互动,学习到一个策略,使其能够在将来获得的奖励最大化。这使得强化学习不总是关注近期奖励,而是在短期的奖励与远期奖励之间找到平衡。
2.3相关概念详解
1.动作:可以分为离散动作空间、连续动作空间。
2.策略:将输入的状态变成动作。随机性策略:根据输入的状态利用概率分布采样一个动作。
确定性策略:智能体直接采取最有可能的动作。
3.价值函数:对未来奖励的预测。
4.智能体分类:基于价值的智能体(Value-based Agent)显式地学习价值函数,隐式地学习策略。基于策略的智能体(Policy-based Agent)则是直接学习策略函数。策略函数的输入为一个状态,输出为对应动作的概率。演员-评论员智能体(Actor-critic Agent)则是把基于价值的智能体和基于策略的智能体结合起来。
5.Trajectory:轨迹。也叫做Episode、Rollout,表示一连串状态和动作的序列
6.Return:回报。开始到结束的Reward的和。
由于演员采取哪一个动作以及环境转移到哪一个状态均以概率形式发生,因此轨迹τ 和对应回报 R(τ ) 均 为随机变量,只能计算回报的期望。
7.策略梯度
个人总结:在强化学习中,当策略具有随机性时,我们可以将策略定义为在给定状态下选择每个可能动作的概率分布。轨迹(或路径)是智能体与环境交互过程中产生的一系列状态和动作的序列。由于策略是随机的,因此轨迹本身也是一个随机变量,它由一系列