NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

本文针对变分自编码器在自然语言处理中训练时出现的KL正则项消失问题,提出了Cyclical Annealing Schedule策略,通过动态调节beta值在训练过程中的增减,有效缓解了这一问题。实验结果表明,该方法在语言建模、对话生成和无监督特征学习等任务上表现出色,并且易于实现,无需额外计算量。
摘要由CSDN通过智能技术生成

640


640?wx_fmt=png


640?wx_fmt=png


研究动机


变分自编码器(Variational Auto-Ecnoders, VAEs)在自然语言处理的很多任务中都有应用。VAEs 的目标函数包括两项:1)重建项;2)KL 正则项。这两项可以用一个权重系数 beta 来调节平衡,通常情况下 beta 设置为常数 1。


当 VAEs 用到自然语言处理时,它的解码器 decoder 通常由一个自回归模型(auto-regressive model)实现。然而这样往往会导致训练过程中出现一个糟心的难题:KL 正则项会消失趋近 0在实践中,这意味着学习到的特征将不再能够表达观测到的数据。本文的目的是希望能够找到一种策略去解决 KL 消失问题。


研究方法


本文提出一种只需要在训练过程中动态调节 beta 就能缓和 KL 消失的策略:Cyclical Annealing Schedule。它周期性地调节 beta ,在每一个周期内有两个阶段:1)beta 值从 0 增加 1;2)并在 beta=1 的时候训练 VAEs。以此多次重复这个周期 M 次(注意是多次)。


举个例子:下图的黑线就是 M=4 个周期,注意,当 M=1 时,我们就回归了以前的单调增加 beta 的方法,如下图的红线。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值