-
论文链接:https://arxiv.org/abs/1807.03756v1
-
相关代码:https://github.com/harvardnlp/var-attn
一、背景
近年来很多论文将 VAE 应用到文本生成上,通过引入隐变量对不确定性进行建模。不过这会导致一个常见的 KL collapsing 问题,导致的现象就是直接训练的 VAE 得到的 KL 接近于 0,也就意味着近似后验和先验一样,隐变量被模型所忽略。
为了解决这个问题,在哈佛研究人员的工作中,注意力被建模成隐变量,由于解码器 (decoder) 和译码器 (encoder) 之间的主要信息传输通道是通过注意力来传输的ÿ