《大规模语言模型从理论到实践》第一轮学习--强化学习(RLHF、PPO)

个人学习笔记,如有错误欢迎指出。

一、强化学习的意义 

RLHF(Reinforcement Learning from Human Feedback):强化学习(Reinforcement Learning)结合人类反馈(Human Feedback)来微调大语言模型。

大语言模型的训练步骤包括:预训练、指令微调(SFT)、对齐。

对齐(alignment)的含义是让 LLM 与人类的价值观保持一致。这就是 RLHF 的用武之地。

二、强化学习基本概念

2.1总体概念

智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策。 动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态以及当前动作所带来的奖励。智能体的目标就是尽可能多地从环境中获取奖励。

2.2例子

例子1:

例子2:从机器狗学习抓飞盘的深入理解强化学习的概念

机器狗扔飞盘,机器狗形成了一个智能体。它会执行动作。飞盘的轨迹、速度构成了环境。机器狗根据当前环境反馈的关于飞盘的状态(S)来决定采取什么动作(A)。同时,根据机器狗所执行的动作,环境随后会给出一个反馈即奖励(R)

机器狗根据不同的环境状态采取不同的动作的过程就是学习策略的过程,同时它会根据价值函数来预测自己所采取的行为可能带来的奖励是多少。

总体来说,强化学习的目标就是让智能体通过与环境的互动,学习到一个策略,使其能够在将来获得的奖励最大化。这使得强化学习不总是关注近期奖励,而是在短期的奖励与远期奖励之间找到平衡。

2.3相关概念详解

1.动作:可以分为离散动作空间、连续动作空间。

2.策略:将输入的状态变成动作。随机性策略:根据输入的状态利用概率分布采样一个动作。

确定性策略:智能体直接采取最有可能的动作。

3.价值函数:对未来奖励的预测。

4.智能体分类:基于价值的智能体(Value-based Agent)显式地学习价值函数,隐式地学习策略。基于策略的智能体(Policy-based Agent)则是直接学习策略函数。策略函数的输入为一个状态,输出为对应动作的概率。演员-评论员智能体(Actor-critic Agent)则是把基于价值的智能体和基于策略的智能体结合起来。

5.Trajectory:轨迹。也叫做Episode、Rollout,表示一连串状态和动作的序列

6.Return:回报。开始到结束的Reward的和。

由于演员采取哪一个动作以及环境转移到哪一个状态均以概率形式发生,因此轨迹τ 和对应回报 R(τ ) 均 为随机变量,只能计算回报的期望。

7.策略梯度

个人总结:在强化学习中,当策略具有随机性时,我们可以将策略定义为在给定状态下选择每个可能动作的概率分布。轨迹(或路径)是智能体与环境交互过程中产生的一系列状态和动作的序列。由于策略是随机的,因此轨迹本身也是一个随机变量,它由一系列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值