李宏毅:RL and GAN for sentence generation and chat-bot

本文介绍了RL(强化学习)在句子生成中的应用,通过调整模型使得好的响应被更频繁地复制,而差的响应则较少出现。同时讨论了Alpha Go风格的训练方法。在序列生成网络(SeqGAN)部分,探讨了其在聊天机器人中的基本思想,并指出常规GAN无法进行反向传播,因此采用WGAN和强化学习,为每个单词提供奖励,利用teacher forcing策略优化模型。
摘要由CSDN通过智能技术生成

1、review

1)chat-bot

2)encoder

把之前的information另做encoder,目前的这句话单独做encoder,再把两者合并,放入generator。

3)generator

4)training generator

训练的时候input的是reference。condition from encoder不是decoder

2、RL(reinforcement learning强化学习) for sentence generation

θ其实隐含了。

某一个response是对的,我们就增加这件事发生的几率,如果这个response是错的,我们就减少这件事发生的几率。比如:说这个response比较好,那我们给的reward就高一点(假设4分),如果response很一般就给低一点的分数(假设1分),那我们在training的时候就可以把拥有比较好response的duplicate 4次,比较差的response duplicate 1次。

可能会导致有一个case(h,x1)没有被sample到,导致它的reward会下降(因为他们的概率值之和要为1),解决方法:就是把你的reward减去一个正值b,让这一项是有正有负的。

因为(h,x2)的reward是比较小的,加了baseline以后,它的值会下降。

3、alpha go style training

4、sequence GAN

1)basic idea:sentence generation

2)basic idea:chat bot

用一般的GAN没法做backpropogation。

用WGAN:

用reinforcement learning

本来是对每一句话一个reward,现在是对每一句话的每一个word一个reward。

teacher forcing

3)seqGAN的应用

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值