AAAI 2021-TextGAIL:Generative Adversarial Imitation Learning for Text Generation

原文链接​https://arxiv.org/abs/2004.13796
介绍motivation

1)Exposure bias problem of MLE

2)The text generated by GAN is Substantially worse than the text generated by MLE
在这里插入图片描述

什么是TextGAIL?

什么是TextGAIL?就是拓展在Text上的GAIL,什么是GAIL,GAIL是一个模仿学习框架。什么是模仿学习,举个例子,如果你跟着教练打网球,你把教练打网球的policy学到了,个人理解就是对于公式中的特定state,做出相应的action,那么这里用文本生成的提示符x替换s,用目标生成序列y替换a得到式1。分析发现这其实是真假样本的Cross Entropy Loss相加的形式,翻页。然而,由于action空间过大,即词典过大,原生的GAIL难以保持稳定,所以本文提出了一种模仿重放法,这种方法类似于在训练过程中混合有监督的最大似然损失,但实践中更易于实现。
在这里插入图片描述
由于逻辑损失收敛过快,鉴别器采用的是对比鉴别策略,也就是说鉴别器估计了真实序列比生成序列更realistic多少,预测结果使用softmax+交叉熵函数,将真实序列的预测结果用于优化Discriminator,生成序列的预测结果作为reward 信号来训练Generator。
在这里插入图片描述
介绍近端优化的生成器。式5是生成句的概率表示,式6说明了通过策略梯度来最大化reward,然而和上文提到的一样,由于直接优化这一目标具有高方差,所以本文使用了PPO近端优化策略,通过求上一个生成的似然来对分布进行重要性加权取样如式7,式8没看懂,欢迎讨论……从而更新Generator来最大化reward。
在这里插入图片描述

训练过训练过程如右图,首先使用人工书写数据和最大似然loss来热身生成器,然后创建一个缓存区,迭代进行如下步骤:取样人工和机器生成的序列输入缓存区,利用运行的统计数据来降低缓冲区中序列的方差构建reward,然后将人工书写的句子用常量代替,更新判别器,最后进行更新生成器和清空缓存区。
在这里插入图片描述
实验
对于无条件生成任务,在COCO和EMNLP2017 News上实验,条件生成任务在CommonGEN和ROCStories上实验。对于质量评估使用BLEU和人工评估方法,对于多样性评估使用Self-BLEU和Distinct-n评估,对于束搜索的解码,使用Seq-Rep-n来衡量句子中的序列级重复度。
Generator:GPT2-base
Discriminator:RoBERTa-base

在这里插入图片描述
在这里插入图片描述
这是两个条件生成任务的介绍。
ConmmonGEN
在这里插入图片描述
ROCStories
在这里插入图片描述
无条件生成任务
这里作者扫描了softmax的温度指数得到Quality-Diversity实验数据如图,纵坐标是self-BELU的negtive值,从下往上代表多样性,横坐标是4-gram的BLEU值,从左往右代表qulity递增,所以越靠近右上角表明越能权衡Quality-Diversity的指数。图a中,TextGAIL的表现明显大于GPT-2加MLE的方案,以及以往的text GANs方案,图b中,作者分析TextGAIL的表现没有拉开是因为该数据集中的长度偏长。
在这里插入图片描述
什么是softmax温度指数?
在这里插入图片描述
条件生成任务
在条件生成任务中,TextGAIL表现也是比较优越如图3,使用束搜索解码其性能也是Top如表1。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
消融实验
在人工评估中,TextGAIL全面优于似然生成模型,在消融实验中,看到PPO和混合人类策略使得模型训练能够更好收敛,以及设置对比鉴别器和预训练语言模型加持对模型带来的提升;在故事结局测试中,TextGAIL比MLE语言有更好的奖励指导。发现一个刊误,这个是CommonGEN,他这打错一个字母hh。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dp0d

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值