摘要:GAN采用判别模型引导生成模型的训练在连续型数据上已经产生了很好的效果,但是有两个limitations,第一,当目标是离散数据时,如文本,不可能文本+1产生梯度信息引导生成器的生成;第二,判别模型只能对完整的序列产生判别信息,对于非完整序列,它并不知道当前的判别结果和未来完整序列的判别结果是否相同。SeqGAN可以解决这两个问题。采用强化学习的reward思想,实行梯度策略更新解决生成器的微分问题,即解决了第一个问题,采用Monte Carlo search将不完整的序列补充完整解决第二个问题。
SeqGAN:
给定真实序列数据集,训练产生序列
,
,
是词汇表。在第
步,状态
是当前生成的序列
, 行为
是下一个选择的token
,因此策略模型