1、review
1)chat-bot
2)encoder
把之前的information另做encoder,目前的这句话单独做encoder,再把两者合并,放入generator。
3)generator
4)training generator
训练的时候input的是reference。condition from encoder不是decoder
2、RL(reinforcement learning强化学习) for sentence generation
θ其实隐含了。
某一个response是对的,我们就增加这件事发生的几率,如果这个response是错的,我们就减少这件事发生的几率。比如:说这个response比较好,那我们给的reward就高一点(假设4分),如果response很一般就给低一点的分数(假设1分),那我们在training的时候就可以把拥有比较好response的duplicate 4次,比较差的response duplicate 1次。
可能会导致有一个case(h,x1)没有被sample到,导致它的reward会下降(因为他们的概率值之和要为1),解决方法:就是把你的reward减去一个正值b,让这一项是有正有负的。
因为(h,x2)的reward是比较小的,加了baseline以后,它的值会下降。
3、alpha go style training
4、sequence GAN
1)basic idea:sentence generation
2)basic idea:chat bot
用一般的GAN没法做backpropogation。
用WGAN:
用reinforcement learning
本来是对每一句话一个reward,现在是对每一句话的每一个word一个reward。
teacher forcing
3)seqGAN的应用