翻译论文：ARAML: A Stable Adversarial Training Framework for Text Generation

最新推荐文章于 2021-12-18 14:52:14 发布

哈哈拉拉hxl

最新推荐文章于 2021-12-18 14:52:14 发布

阅读量579

点赞数

分类专栏：翻译

本文链接：https://blog.csdn.net/qq_41238579/article/details/100533781

版权

翻译专栏收录该内容

4 篇文章 0 订阅

订阅专栏

ARAML: A Stable Adversarial Training Framework for Text Generation
一个稳定的对抗训练文本生成框架

abstract
现有文本生成的生成性对抗网络，大多存在策略梯度等强化学习训练算法的不稳定性，导致性能不稳定。
为了解决这个问题，我们提出了一个新的框架，称为对抗奖励增强最大似然法(ARAML)。
在对抗训练中，鉴别器将奖励分配样本，样本是从数据附近的固定分布而不是生成器分布中获得的。生成器被优化，最大似然估计增强由鉴别器的奖励而不是策略梯度。实验表明，我们的模型在训练过程更加稳定的情况下，能够优于最先进的文本分类器。
introduction
训练这种神经模型的标准范例是最大似然估计(MLE)，它最大化了在给定基本事实进行背景下观察文本中每个单词的对数似然性(Graves，2013)。
但最大似然估计仍存在曝光偏差问题(Bengio等人，2015年；Ran-zato等人，2016):在测试过程中，模型根据其先前生成的单词顺序预测下一个单词，而在训练过程中根据基本事实单词进行预测。
为了解决这个问题问题，具有强化学习训练方法的生成对抗网络已经被引入到文本生成任务中，其中鉴别器被训练来区分真实的和生成的文本样本，以向发生器提供奖励信号，并且发生器通过策略梯度被优化(Yu等人，2017)。
在离散数据上训练GANs的潜在问题比暴露偏差更严重(Semeniuta1等人，2018年；Caccia等人，2018年)。使用GANs生成离散文本样本时，一个基本问题是训练不稳定性。用策略梯度更新生成器总是会导致不稳定的训练过程，因为即使经过仔细的预训练，生成器也很难从鉴别器中获得积极和稳定的奖励信号(Che等人，2017)。其结果是，由于奖励信号的高方差，生成器丢失，训练过程可能最终崩溃(李等人，2017)。
本文提出了一种新的对抗训练框架——对抗奖励增强最大似然法(ARAML)，以解决文本生成训练GAn的不稳定性问题。在对抗训练的每次迭代中，我们首先训练鉴别器给真实数据分配比生成的样本更高的奖励。然后，受奖励增加最大最小似然(RAML)的启发(诺鲁齐等人，2016)，生成器根据从具有最大似然估计(MLE)的平稳分布中获取的样本进行更新，并由鉴别器的奖励加权。这种静态分布被设计成保证训练样本围绕真实数据，因此我们的生成器的探测空间确实受到
MLE培训目标，使培训更加稳定。与其他采用强化学习训练技术的文本GAN相比，我们的框架从静态分布而不是生成器分布中获取样本，并使用RAML训练范式来优化生成器而不是策略梯度。我们的贡献主要如下:
我们从训练不稳定性的角度分析了当前文本生成的基本问题。
我们提出了一个新的框架，称为对抗奖励增强最大相似度(ARAML)，它将稳定的RAML训练纳入对抗训练范式。三个文本生成任务的实验结果表明了该方法的有效性。
related work
model