研究动机
变分自编码器(Variational Auto-Ecnoders, VAEs)在自然语言处理的很多任务中都有应用。VAEs 的目标函数包括两项:1)重建项;2)KL 正则项。这两项可以用一个权重系数 beta 来调节平衡,通常情况下 beta 设置为常数 1。
当 VAEs 用到自然语言处理时,它的解码器 decoder 通常由一个自回归模型(auto-regressive model)实现。然而这样往往会导致训练过程中出现一个糟心的难题:KL 正则项会消失趋近 0。在实践中,这意味着学习到的特征将不再能够表达观测到的数据。本文的目的是希望能够找到一种策略去解决 KL 消失问题。
研究方法
本文提出一种只需要在训练过程中动态调节 beta 就能缓和 KL 消失的策略:Cyclical Annealing Schedule。它周期性地调节 beta ,在每一个周期内有两个阶段:1)beta 值从 0 增加 1;2)并在 beta=1 的时候训练 VAEs。以此多次重复这个周期 M 次(注意是多次)。
举个例子:下图的黑线就是 M=4 个周期,注意,当 M=1 时,我们就回归了以前的单调增加 beta 的方法,如下图的红线。