论文引介 | Adversarial Learning for Neural Dialogue Generation

文章原名:Adversarial Learning for Neural Dialogue Generation

作者:Jiwei Li, Will Monroe, Tianlin Shi, Sebeastien Jean, Alan Ritter and Dan Jurafsky

单位:Stanford University, New York University and OhioState University

译者:韩旭

链接:

https://arxiv.org/pdf/1701.06547.pdf(可戳下方阅读原文)

1

导读

这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监督的问题。其主体思想就是将整体任务划分到两个子系统上,一个是生成器(generative model),利用seq2seq式的模型以上文的句子作为输入,输出对应的对话语句;另一个则是一个判别器(discriminator),用以区分在前文条件下当前的问答是否是和人类行为接近,这里可以近似地看作是一个二分类分类器。两者结合的工作机理也很直观,生成器不断根据前文生成答句,判别器则不断用生成器的生成作为负例,原文的标准回答作为正例来强化分类。在两者训练的过程中,生成器需要不断改良答案来欺骗生成器,判别器则需要不断提高自身的判别能力从而区分机造和人造答案直至最后两者收敛达到某种均衡。以往的模型受限于训练目标以及训练方式,其生成的结果往往是迟钝笼统的甚至都很简短(如果可以的话,所有的对话我都可以回答“呵呵”,很明显这样的回答是不符合常识的)。所以这样一种博弈式的训练方式来取代以往相对简单固定的概率似然来优化这样一种无监督的开放任务显然是很有意义的想法。不过这样的方法遇到困难也很明显,GAN和NLP一直八字不合,很难很好的融合。和之前的工作SeqGAN类似,这篇工作也采取了增强学习来规避GAN在NLP中使用的难点,并作出了更多的尝试。

2

模型

Generative model & Discriminativemodel:

生成器G就是一个seq2seq模型,输入是历史对话x,通过RNN来对语义进行向量表示再逐一生成回答的每个词,从而形成回答y,由于该种模型已经有很大的人群认知,就不过多赘述。判别器D是一个输入为历史对话x和回答y二元组的一个二分类器,使用了hierarchicalencoder,其中机造回答组合为负例Q−({x,y}),人造回答组合为正例Q+({x, y})。

Policy Gradient Training:

文中模型采用了policy gradient的方法(增强学习的方式之一)来进行增强学习的训练,其优化目标为:

  

优化目标的导数可化为:

  

Q是判别器D的结果,换句话说判别器的鉴定结果可以看作是增强学习中的reward,policy gradient整体的优化目标其实就是希望回报高的决策其概率越高。在本任务中state为x,即历史对话;决策为y,即下一步的对话。x生成y的概率等于逐词生成的概率,如(2)所示,这里也可以很好的和seq2seq的工作机理对应上。b({x,y})则是一个使得训练稳定的平衡项。

Reward for EveryGeneration Step (REGS) :

在本任务中增强学习的一个很大的问题在于我们的估价都是针对一整个回答的,判别器只会给出一个近似于对或者不对的反馈。这样的模式存在一个很大的问题是,即使是很多被判断为有问题的句子,其中有很大一部分语言成分是有效的,如文中的例子“what’s yourname”,人类回答“I am John”,机器回答“I don’t know”。判别器会给出“I don’t know”是有问题的,但无法给出I是对的而后面的don’t know是错的,事实上机器没有回答he/she/you/they而是I本质上是需要一个肯定的正反馈的。判别器只告诉机器对或错,却不告知哪部分对和哪部分错,这对训练带来了很大隐患。所以文中采用了两种方式,第一种是Monte Carlo,第二种则是使用局部序列来评估。第一种和之前的一些增强学习引入的工作类似就不做赘述,我们主要关注第二种方法。

  

  

主要思想就是将二式变为三式,通俗点讲就是把序列评分拆开来算,这样就能算到前缀的评分,做到局部评价的反馈。为了防止训练过拟合,每次只是从正例和负例的子序列中随机选取一个来训练。不过有一丝遗憾的是,这个方法快速也符合常识但会使得判别器变弱,实际效果不如Monte Carlo准确。

Teacher Forcing :

在以往的工作中,D效果非常好而G的效果非常糟糕会带来训练效果的下降。试想一下一个G所有产生的答案都被D驳回了,在这段时间内G的所有反馈都是负反馈,G就会迷失从而不知道向什么方向优化会得到正反馈,所以理想的情况下G和D是交替训练上升的。在控制D和G训练节奏的同时,这篇工作中又采用了一种类似强制学习的方式来尝试解决这个问题。每次在正常的增加学习后会让生成器强行生成正确答案并从D得到正向的反馈,从而每次都能有一个正向优化方向的指示。这样的行为类似于学校老师强行灌输知识,也很类似于之前的professor-forcing算法。所以到此整体的模型结构为:

  

训练频率的设定在图中的解释中有提到。无论是GAN还是RL都是出了名的难训,Training Details大家还是看源码和论文仔细体会吧,在此也就不铺开了。

3

实验

实验的结果以及部分case study可以一定程度上体现对抗训练的模型起到了预期的效果。

  

  

  

  

4

总结

虽然在手法上和之前的SeqGAN类似,采用了增强学习的方法来在NLP任务上进行对抗训练,并且提出了一些新的针对于NLP本身特征的方法改进,尽管还存在很大问题需要解决,但也算是不错的尝试。引入对抗训练这样的方式可以解决以往模型,尤其是无监督生成式任务模型的许多问题,但受限于技术细节,现在的模型还处于探索阶段,模型繁冗复杂,训练过程需要掺入大量工程实现手法,方法无法在相似任务上灵活转移。作者在这篇工作的结论里也提到了自己的模型在其他任务诸如machine translation和summarization效果并不是很好,并给出了自己认为可能的一些解释。这些都需要我们进一步的去探索挖掘文本本身特有的性质来改造发展模型,并进一步尝试。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值