SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 阅读笔记

最新推荐文章于 2022-02-27 15:49:34 发布

qq_41500948

最新推荐文章于 2022-02-27 15:49:34 发布

阅读量252

点赞数

分类专栏：文本生成文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_41500948/article/details/106621448

版权

文本生成专栏收录该内容

1 篇文章 0 订阅

订阅专栏

GAN应用到文本生成的问题：

(1)GAN常用于连续的数据，而文本生成是离散的数据。(待补充说明)
(2)GAN只能为完整的序列给出分数，而我们需要衡量不完整序列的分数。

本文模型：

(1)利用了强化学习：state:目前的已经生成的字符；action:下一个生成的字符；
(2)利用了GAN：使用分辨器评估序列的分数，且引导生成器的训练。
(3)利用了Monte Carlo(MC)来评估state-action值。

序列生成对抗网络
基础知识：
$G_θ$ :参数为θ的生成器；
$Y_{1:T}$ :由生成器生成的 $y_1,...,y_t,...,y_T)$ ；
状态s:目前的已经生成的字符 $y_1,...,y_{t-1})$ ；
action:下一个选择生成的字符 $y_t$ ；
策略模型 $G_θ(Y_(1:t-1))$ 是随机的，但是状态转移是确定的(eg:s= $Y_(1：t-1)$ ,a= $y_t$ ，则下一个状态 $s^1=Y_(1:t)$ 的概率为1)

模型框架：
在这里插入图片描述
左图：生成器生成的序列作为negative samples，真实序列作为positive samples来训练判别器；
右图：判别器利用MC计算生成序列的reward，然后利用Policy Gradient来更新生成器的参数。

Policy gradient

当没有中间奖励时，生成器 $G_θ(Y_(1:t-1))$ 的目标是从初始状态开始，生成一个奖励最高的序列：
概率*奖励累计和
即在执行策略时获得的奖励等于执行该状态下所有行为的概率与对应行为产生的即时奖励的乘积的和。
其中 $R_T$ 表示完整序列的奖励；Q函数：在状态 $s_0$ 下，选择 $y_1$ 字符后，使用策略 $G_θ$ 的累计奖励；
生成器的目标：生成一个序列，使判别器认为它为真。

由此出现了下一个问题：如何计算Q函数？
RL中有：
在这里插入图片描述
但是判别器只能计算完整序列的reward，所以为了计算中间状态的reward，使用了MC Search with policy gradient $G_β$ 来模拟采样剩下的T-T个序列字符，重复N次。(本实验中， $G_β$ 与生成器一致)

MC Search:

roll_out policy:
roll-out 算法是对于当前状态，从每一个可能的动作开始，之后根据给定的策略进行路径采样，根据多次采样的奖励总和来对当前状态的行动值进行估计。当当前估计基本收敛时，会根据行动值最大的原则选择动作进入下一个状态再重复上述过程。在蒙特卡洛控制中，采样的目的是估计一个完整的，最优价值函数，但是roll-out中的采样目的只是为了计算当前状态的行动值以便进入下一个状态，而且这些估计的行动值并不会被保留。在roll-out中采用的策略往往比较简单被称作 roll-out 策略 (roll-out policy)。

小结：即根据多次采样的奖励，用已存在的序列来模拟出一个完整的序列用于计算reward。

由此可得Q函数为：
在这里插入图片描述
到此，生成器可以生成更为真实的序列，然后根据生成器重新训练判别器(交叉熵)：

当判别器更新后，再根据更新后的判别器训练生成器：
推导见后面
公式(6)是基于‘中间奖励为0’和“状态转移确定”的情况。根据公式(6)，利用对数采样建立一个无偏估计方程：
在这里插入图片描述
公式(7)仔细推导过程：(关于第三到第四步只是我的个人想法，不知道对不对，希望知道的同学能告诉我)

然后利用梯度下降更新生成器参数：

算法：

生成器：
使用LSTM作为生成器：

判别器(CNN):
设输入序列为 $x_1,...,x_T$ ，将它们连接成矩阵 $ε _(1:T)$
在这里插入图片描述
然后根据公式(12)得到特征图(卷积层进行卷积操作)：

然后再卷积层后接入一个最大池化层以及全连接层，优化目标对应公式(5)

附录：
重写RL中的Q函数和状态价值函数：
前提：中间状态奖励 $R_S)^a$ 为0，状态转移确定。
在这里插入图片描述
对于公式(6)的推导：

利用公式(14)和公式(15)反复迭代。

qq_41500948

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 阅读笔记

GAN应用到文本生成的两个问题：(1)GAN常用于连续的数据，而文本生成是离散的数据。(待补充说明)(2)GAN只能为完整的序列给出分数，而我们需要衡量不完整序列的分数。本文模型：(1)利用了强化学习：state:目前的已经生成的字符；action:下一个生成的字符；(2)利用了GAN：使用分辨器评估序列的分数，且引导生成器的训练。(3)利用了Monte Carlo(MC)来评估state-action值。序列生成对抗网络GθG_θGθ:参数为θ的生成器；Y1:TY_{1:T}Y1:
复制链接

扫一扫