AAAI 2021-TextGAIL：Generative Adversarial Imitation Learning for Text Generation

最新推荐文章于 2024-04-15 21:01:36 发布

dp0d

最新推荐文章于 2024-04-15 21:01:36 发布

阅读量439

点赞数

分类专栏：文献阅读文章标签：深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/qq_40420039/article/details/119952999

版权

文献阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原文链接https://arxiv.org/abs/2004.13796
介绍motivation

1）Exposure bias problem of MLE

2）The text generated by GAN is Substantially worse than the text generated by MLE
在这里插入图片描述

什么是TextGAIL？

什么是TextGAIL？就是拓展在Text上的GAIL，什么是GAIL，GAIL是一个模仿学习框架。什么是模仿学习，举个例子，如果你跟着教练打网球，你把教练打网球的policy学到了，个人理解就是对于公式中的特定state，做出相应的action，那么这里用文本生成的提示符x替换s，用目标生成序列y替换a得到式1。分析发现这其实是真假样本的Cross Entropy Loss相加的形式，翻页。然而，由于action空间过大，即词典过大，原生的GAIL难以保持稳定，所以本文提出了一种模仿重放法，这种方法类似于在训练过程中混合有监督的最大似然损失，但实践中更易于实现。
在这里插入图片描述
由于逻辑损失收敛过快，鉴别器采用的是对比鉴别策略，也就是说鉴别器估计了真实序列比生成序列更realistic多少，预测结果使用softmax+交叉熵函数，将真实序列的预测结果用于优化Discriminator，生成序列的预测结果作为reward 信号来训练Generator。
在这里插入图片描述
介绍近端优化的生成器。式5是生成句的概率表示，式6说明了通过策略梯度来最大化reward，然而和上文提到的一样，由于直接优化这一目标具有高方差，所以本文使用了PPO近端优化策略，通过求上一个生成的似然来对分布进行重要性加权取样如式7，式8没看懂，欢迎讨论……从而更新Generator来最大化reward。
在这里插入图片描述

训练过训练过程如右图，首先使用人工书写数据和最大似然loss来热身生成器，然后创建一个缓存区，迭代进行如下步骤：取样人工和机器生成的序列输入缓存区，利用运行的统计数据来降低缓冲区中序列的方差构建reward，然后将人工书写的句子用常量代替，更新判别器，最后进行更新生成器和清空缓存区。
在这里插入图片描述
实验
对于无条件生成任务，在COCO和EMNLP2017 News上实验，条件生成任务在CommonGEN和ROCStories上实验。对于质量评估使用BLEU和人工评估方法，对于多样性评估使用Self-BLEU和Distinct-n评估，对于束搜索的解码，使用Seq-Rep-n来衡量句子中的序列级重复度。
Generator：GPT2-base
Discriminator：RoBERTa-base

在这里插入图片描述

这是两个条件生成任务的介绍。
ConmmonGEN

ROCStories

无条件生成任务
这里作者扫描了softmax的温度指数得到Quality-Diversity实验数据如图，纵坐标是self-BELU的negtive值，从下往上代表多样性，横坐标是4-gram的BLEU值，从左往右代表qulity递增，所以越靠近右上角表明越能权衡Quality-Diversity的指数。图a中，TextGAIL的表现明显大于GPT-2加MLE的方案，以及以往的text GANs方案，图b中，作者分析TextGAIL的表现没有拉开是因为该数据集中的长度偏长。
在这里插入图片描述
什么是softmax温度指数？

条件生成任务
在条件生成任务中，TextGAIL表现也是比较优越如图3，使用束搜索解码其性能也是Top如表1。

消融实验
在人工评估中，TextGAIL全面优于似然生成模型，在消融实验中，看到PPO和混合人类策略使得模型训练能够更好收敛，以及设置对比鉴别器和预训练语言模型加持对模型带来的提升；在故事结局测试中，TextGAIL比MLE语言有更好的奖励指导。发现一个刊误，这个是CommonGEN，他这打错一个字母hh。
在这里插入图片描述

dp0d

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
AAAI 2021-TextGAIL：Generative Adversarial Imitation Learning for Text Generation

motivation1）Exposure bias problem of MLE2）The text generated by GAN is Substantially worse than the text generated by MLE什么是TextGAIL？什么是TextGAIL？就是拓展在Text上的GAIL，什么是GAIL，GAIL是一个模仿学习框架。什么是模仿学习，举个例子，如果你跟着教练打网球，你把教练打网球的policy学到了，个人理解就是对于公式中的特定state，做出相应
复制链接

扫一扫