RL for Sentence Generation

最新推荐文章于 2021-04-03 11:35:28 发布

村头陶员外

最新推荐文章于 2021-04-03 11:35:28 发布

阅读量477

点赞数

分类专栏：强化学习自然语言处理

本文链接：https://blog.csdn.net/Mr_tyting/article/details/80407872

版权

自然语言处理同时被 2 个专栏收录

24 篇文章 3 订阅

订阅专栏

强化学习

7 篇文章 0 订阅

订阅专栏

本篇博文主要总结下台大教授李宏毅深度学习课程中关于 $s e q G A N$ 的相关内容，并且添加了自己的一些思考。

Policy Gradient

众所周知，强化学习的目标就是 $Maximizing\ Expected\ Reward$ ，在 $s e q G A N$ 中，如下图：

这里写图片描述

上图中生成器是一个 $s e q 2 s e q$ 的模型，判别器就是所谓的 $H u m a m$ 。那么不同的 $encoder\_input\ h$ 能生成不同的 $x$ ，我们把 $h, x$ 喂给判别器，让其进行评价评估，得到其 $r e w a r d$ 。

我们的目标就是希望最大化的这个 $Maximizing\ Expected\ Reward$
这里写图片描述

上面公式中的 $\sum p(h)$ 可以理解为 $encoder\_input$ 的分布， $p_\theta (x|h)$ 表示在当前 $encoder\_input$ 下生成的所有 $x$ 的分布，注意因为有随机性，相同的 $h$ 不一定能生成相同的 $x$ 。 $\theta$ 是 $s e q 2 s e q$ 的模型参数。我们的就是不断的最大化上面的 $R_{\theta}$ 来更新 $\theta$ 然后更新生成器。

显然，我们可以将上式子理解成期望的形式：

这里写图片描述

因为不可能穷举所有的训练数据，故只能采用 $s a m p l e$ 近似的方式

这里写图片描述

由此产生了一个问题，我们需要更新生成器的参数 $\theta$ ，如果采用 $s a m p l e$ 的方式，则无法找到参数，参数是隐藏其中的，影响生成的 $x$ 。

好，此时采用 $policy\ gradient$ 的方法：
这里写图片描述

然后我们用已经求得的 $R$ 对 $\theta$ 的导数，利用 $gradient\_ascend$ 来更新 $\theta$ 。

这里写图片描述

显然：

当 $R(h^i, x^i)$ 为正时，通过更新 $\theta$ ，更新后的 $p(x_i|h_i)$ 会增大。
当 $R(h^i, x^i)$ 为负时，通过更新 $\theta$ ，更新后的 $p(x_i|h_i)$ 会减小。

经典的是 $policy\ gradient$ 与 $M L E$ 的比较：

这里写图片描述

上面表格的总结非常精辟，强化学习的目标函数实际上就是MLE的每一项的前面加了个权重而已，这个权重就是 $r e w a r d$ ；并且在 $M L E$ 的目标函数中，其 $x$ 为 $true\ target$ ，而在 $R L$ 中， $x$ 为生成所生成的。（避免 $bias\ exposure$ 问题）

在实际实现中，也很简单，在已知上面表格中的 $R L$ 目标函数，利用深度学习框架即可自动的求导使其最大化。也可以理解为只是在 $M L E$ 的每一项前添加一个 $r e w a r d$ 权重即可，至于 $r e w a r d$ 如何得到，之前的博文中已讲过。

村头陶员外

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RL for Sentence Generation

本篇博文主要总结下台大教授李宏毅深度学习课程中关于seqGANseqGANseqGAN 的相关内容，并且添加了自己的一些思考。Policy Gradient众所周知，强化学习的目标就是Maximizing&nbsp;Expected&nbsp;RewardMaximizing&nbsp;Expected&nbsp;RewardMaximizing\ Expected\ Reward，在se...
复制链接

扫一扫

专栏目录