哈佛大学提出变分注意力:用VAE重建注意力机制

哈佛大学研究者将注意力模型视为隐变量,应用VAE避免KL崩溃,实现在IWSLT German-English任务上的出色表现。他们提出通过全部信息得到后验注意力,提供更干净的特征给解码器,增强模型性能,未来计划在更大规模任务和复杂模型上展开研究。
摘要由CSDN通过智能技术生成

注意力 (attention) 模型在神经网络中被广泛应用,不过注意力机制一般是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量,应用变分自编码器(Variational Auto-Encoder,VAE)和梯度策略来训练模型,在不使用 kl annealing 等训练技巧的情况下进行训练,目前在 IWSLT German-English 上取得了非常不错的成果。

1532592977905.png

  • 论文链接:https://arxiv.org/abs/1807.03756v1

  • 相关代码:https://github.com/harvardnlp/var-attn

一、背景

近年来很多论文将 VAE 应用到文本生成上,通过引入隐变量对不确定性进行建模。不过这会导致一个常见的 KL collapsing 问题,导致的现象就是直接训练的 VAE 得到的 KL 接近于 0,也就意味着近似后验和先验一样,隐变量被模型所忽略。

为了解决这个问题,在哈佛研究人员的工作中,注意力被建模成隐变量,由于解码器 (decoder) 和译码器 (encoder) 之间的主要信息传输通道是通过注意力来传输的ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值