《An Attentive Survey of Attention Models》论文阅读笔记

IJCAI 2019的文章,对注意力机制做的综述。

地址:https://arxiv.org/abs/1904.02874

注意力机制的高速发展有三个原因:

1、这些模型取得了state-of-the-art的结果。

2、注意力机制可以被用来提升神经网络的可解释性。不然NN只能被理解为一个黑盒。

3、有助于克服递归神经网络(RNNs)的一些挑战,如随着输入长度的增加而导致的性能下降和由于输入的顺序处理而导致的计算效率低下。

传统encoder-decoder存在的问题:

首先,编码器必须将所有输入信息压缩成一个固定长度的向量hT,然后将其传递给解码器。使用单一固定长度向量压缩长而详细的输入序列可能会导致信息丢失。

其次,它无法对输入和输出序列之间的对齐进行建模,尤其是在MT和自动摘要等任务中。

直观上看,每一个output都应该跟特定的部分input有关,但是传统的模型并没有考虑到这个问题。

 

加了注意力机制之后,就是把原先decoder输入只有hT改成了从{h1,h2,...,hT}都输入,加一个权重矩阵,给某些位置的input加了优先级。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值