哈佛大学提出变分注意力：用VAE重建注意力机制

机器之心V

于 2018-07-26 04:17:00 发布

阅读量3.2k

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/uwr44uouqcnsuqb60zk2/article/details/81230257

版权

哈佛大学研究者将注意力模型视为隐变量，应用VAE避免KL崩溃，实现在IWSLT German-English任务上的出色表现。他们提出通过全部信息得到后验注意力，提供更干净的特征给解码器，增强模型性能，未来计划在更大规模任务和复杂模型上展开研究。

摘要由CSDN通过智能技术生成

注意力 (attention) 模型在神经网络中被广泛应用，不过注意力机制一般是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量，应用变分自编码器（Variational Auto-Encoder，VAE）和梯度策略来训练模型，在不使用 kl annealing 等训练技巧的情况下进行训练，目前在 IWSLT German-English 上取得了非常不错的成果。