NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

最新推荐文章于 2024-01-07 02:05:35 发布

PaperWeekly

最新推荐文章于 2024-01-07 02:05:35 发布

阅读量3k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/89507745

版权

本文针对变分自编码器在自然语言处理中训练时出现的KL正则项消失问题，提出了Cyclical Annealing Schedule策略，通过动态调节beta值在训练过程中的增减，有效缓解了这一问题。实验结果表明，该方法在语言建模、对话生成和无监督特征学习等任务上表现出色，并且易于实现，无需额外计算量。

摘要由CSDN通过智能技术生成

640

640?wx_fmt=png

研究动机

变分自编码器（Variational Auto-Ecnoders, VAEs）在自然语言处理的很多任务中都有应用。VAEs 的目标函数包括两项：1）重建项；2）KL 正则项。这两项可以用一个权重系数 beta 来调节平衡，通常情况下 beta 设置为常数 1。

当 VAEs 用到自然语言处理时，它的解码器 decoder 通常由一个自回归模型（auto-regressive model）实现。然而这样往往会导致训练过程中出现一个糟心的难题：KL 正则项会消失趋近 0。在实践中，这意味着学习到的特征将不再能够表达观测到的数据。本文的目的是希望能够找到一种策略去解决 KL 消失问题。

研究方法

本文提出一种只需要在训练过程中动态调节 beta 就能缓和 KL 消失的策略：Cyclical Annealing Schedule。它周期性地调节 beta ，在每一个周期内有两个阶段：1）beta 值从 0 增加 1；2）并在 beta=1 的时候训练 VAEs。以此多次重复这个周期 M 次（注意是多次）。

举个例子：下图的黑线就是 M=4 个周期，注意，当 M=1 时，我们就回归了以前的单调增加 beta 的方法，如下图的红线。