SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 阅读笔记
GAN应用到文本生成的两个问题:
(1)GAN常用于连续的数据,而文本生成是离散的数据。(待补充说明)
(2)GAN只能为完整的序列给出分数,而我们需要衡量不完整序列的分数。
本文模型:
(1)利用了强化学习:
state:目前的已经生成的字符;
action:下一个生成的字符;
(2)利用了GAN:使用分辨器评估序列的分数,且引导生成器的训练。
(3)利用了Monte Carlo(MC)来评估state-action值。
序列生成对抗网络
GθG_θGθ:参数为θ的生成器;
Y1:TY_{1:T}Y1:
原创
2020-06-09 16:21:16 ·
252 阅读 ·
0 评论