翻译论文:ARAML: A Stable Adversarial Training Framework for Text Generation

ARAML: A Stable Adversarial Training Framework for Text Generation
一个稳定的对抗训练文本生成框架

  1. abstract
    现有文本生成的生成性对抗网络,大多存在策略梯度等强化学习训练算法的不稳定性,导致性能不稳定。
    为了解决这个问题,我们提出了一个新的框架,称为对抗奖励增强最大似然法(ARAML)。
    在对抗训练中,鉴别器将奖励分配样本,样本是从数据附近的固定分布而不是生成器分布中获得的。生成器被优化,最大似然估计增强由鉴别器的奖励而不是策略梯度。实验表明,我们的模型在训练过程更加稳定的情况下,能够优于最先进的文本分类器。

  2. introduction
    训练这种神经模型的标准范例是最大似然估计(MLE),它最大化了在给定基本事实进行背景下观察文本中每个单词的对数似然性(Graves,2013)。
    但最大似然估计仍存在曝光偏差问题(Bengio等人,2015年;Ran-zato等人,2016):在测试过程中,模型根据其先前生成的单词顺序预测下一个单词,而在训练过程中根据基本事实单词进行预测。
    为了解决这个问题问题,具有强化学习训练方法的生成对抗网络已经被引入到文本生成任务中,其中鉴别器被训练来区分真实的和生成的文本样本,以向发生器提供奖励信号,并且发生器通过策略梯度被优化(Yu等人,2017)。
    离散数据上训练GANs的潜在问题比暴露偏差更严重(Semeniuta1等人,2018年;Caccia等人,2018年)。使用GANs生成离散文本样本时,一个基本问题是训练不稳定性。用策略梯度更新生成器总是会导致不稳定的训练过程,因为即使经过仔细的预训练,生成器也很难从鉴别器中获得积极和稳定的奖励信号(Che等人,2017)。其结果是,由于奖励信号的高方差,生成器丢失,训练过程可能最终崩溃(李等人,2017)。
    本文提出了一种新的对抗训练框架——对抗奖励增强最大似然法(ARAML),以解决文本生成训练GAn的不稳定性问题。在对抗训练的每次迭代中,我们首先训练鉴别器给真实数据分配比生成的样本更高的奖励。然后,受奖励增加最大最小似然(RAML)的启发(诺鲁齐等人,2016),生成器根据从具有最大似然估计(MLE)的平稳分布中获取的样本进行更新,并由鉴别器的奖励加权。这种静态分布被设计成保证训练样本围绕真实数据,因此我们的生成器的探测空间确实受到
    MLE培训目标,使培训更加稳定。与其他采用强化学习训练技术的文本GAN相比,我们的框架从静态分布而不是生成器分布中获取样本,并使用RAML训练范式来优化生成器而不是策略梯度。我们的贡献主要如下:
    我们从训练不稳定性的角度分析了当前文本生成的基本问题
    我们提出了一个新的框架,称为对抗奖励增强最大相似度(ARAML),它将稳定的RAML训练纳入对抗训练范式。三个文本生成任务的实验结果表明了该方法的有效性。

  3. related work

  4. model

在这里插入图片描述
ARAML模型的概述。
这种对抗性训练框架由两个阶段组成:
1)鉴别器被训练为给真实数据分配比生成的数据更高的奖励
2)生成器根据从固定分布获得的样本进行培训带奖励的增强最大似然估计训练目标。

  1. exprement
    数据集:
    (1) COCO image caption dataset (Chen et al.,2015)
    (2)EMNLP2017 WMT dataset1
    (3)WeiboDial single-turn dialogue dataset
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值