chatgpt中的强化学习 PPO

最新推荐文章于 2024-04-21 18:10:05 发布

清泉流响略略略

最新推荐文章于 2024-04-21 18:10:05 发布

阅读量3.4k

点赞数 1

文章标签： chatgpt 人工智能算法

本文链接：https://blog.csdn.net/weixin_38949258/article/details/129984562

版权

PPO？强化学习

基本概念

强化学习五要素：智能体、行为、环境、状态、奖励。

先直接将五个要素映射到文本生成任务上：

智能体：生成模型。

行为: 获取当前step token的概率分布，并选取其中一个作为生成的token。

环境：一个评判标准，可以是模型，一般都是分类模型，seqgan是使用判别是否机器生成的分类器模型，chatgpt是人类偏好分类器；也可以是人为制定的评估标准，类似relu，rouge。

状态：当前step已生成的文本。

奖励：由环境结合当前的状态给出的分数。

状态价值的计算
$\gamma \sum_{s^{'} \in S} P(s'|s) V(s')$
$R (s)$ : 当前状态的奖励

$\gamma$ :折扣因子，因为当前的状态对后续的状态会随着步数的增加而减小。

先给出一个简单的例子：

一个生活中最常见的“吃饭”例子

在这里插入图片描述
好比吃饭可以带来奖励为6，折扣因子为0.8，对于吃饭状态的奖励值的计算为：
$\begin{aligned} V(吃饭) &= R(吃饭) + \gamma \sum_{s^{'} \in S} P(s^{'}|s) V(s)\\ &=6 + 0.8(0.5 * V(喝酒) + 0.5 * V(喝茶))\\ &=6 + 0.8(0.5 * (3 + 0.8(1.0 * 10)) + 0.5 * (5 + 0.8(1.0 * 4)))\\ \end{aligned}$
问题：1）对于文本生成而言，我们无法对每个状态给出一个奖励，我们只有在一个样本生成结束之后，才可以评判一个样本生成的好坏。

2）假设我们要生成一个20字长的文本，生成器的词表大小是20000，我们的状态空间就是20000的20次方，这是显然我们无法接受。

求解方法：

蒙特卡洛

蒙特卡洛方法，也称为统计模拟方法，就是通过大量的随机样本来估算或近似真实值，比如近似估算圆的面积。

在这里插入图片描述

可以通过圆的面积/ 正方形的面积 = 圆中点的个数/正方形中点的个数来计算圆的面积。

类似的，在文本生成中我们也可以用蒙特卡洛方法来估计一个模型的状态价值。考虑到一个状态的价值是它的期望回报，那么如果我们用当前模型采样很多条序列，然后计算从这个状态出发的回报再求其期望就可以了，这样我们就同时解决了上述的两个问题。

例子：

输入：今天的天气怎么样？

模型采样输出：1）s1 = 很抱歉，我无法回答当前天气情况，因为我没有实时获取天气信息的功能。 7

2）s2 = 今天天气晴朗。 3

3）s3 = 今天会下冰雹。 5

…
$E_{\pi}(^"今天天气怎么样?^") = \sum_{\tau}R(\tau)P_{\pi}(\tau)$
$\tau$ 是我们任何可能生成的文本， $\pi$ 是我们当前的生成模型，我们期望最大化 $E_{\pi}(^"今天天气怎么样?^")$ ，既然要最大化，我们肯定需要对期望进行求导。
$\begin{aligned} \nabla E_{\pi}(^"今天天气怎么样?^") &= \sum_{\tau}R(\tau)\nabla P_{\pi}(\tau)\\ &= \sum_{\tau}R(\tau)P_{\pi}(\tau) \frac {\nabla P_{\pi}(\tau)} {P_{\pi}(\tau)}\\ &=\sum_{\tau}R(\tau)P_{\pi}(\tau)\nabla log(P_{\pi}(\tau))\\ &= E_{\pi}(^"今天天气怎么样?^")[R(\tau)\nabla log(P_{\pi}(\tau))] \end{aligned}$

最低0.47元/天解锁文章

清泉流响略略略

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
chatgpt中的强化学习 PPO

本该到此结束，但是上述实现的时候其实是把生成的每一步的奖励都使用统一的句子级reward，但该代码其实也额外按照每个token来计算奖励值的，为了获取每个token的奖励，我们在生成模型的隐层表示上，多加一个线性层，映射到一维，作为每个状态的预测奖励值。类似的，在文本生成中我们也可以用蒙特卡洛方法来估计一个模型的状态价值。假如我们只采样到了s1和s2，没有采样到s3，由于7和3都是正向奖励，s1和s2的训练后生成的概率都会变大，且s1的概率变的更大，这看似合理，但是s3是未参与训练的，它的概率反而减小了。
复制链接

扫一扫