Attention、self-attention:从计算、公式的角度详解

本文详细介绍了注意力机制(attention)和自注意力(self-attention)的概念,以机器翻译和RNN-Seq2Seq模型为例,探讨了注意力机制在模型中的作用。文章通过分析不同的计算方式,如softmax归一化,解释了如何计算权重并形成加权平均的上下文向量。此外,还讨论了自注意力在单一RNN中的应用,如何利用当前时刻的隐藏状态与历史状态的相关性来解决RNN的遗忘问题,从而增强模型的信息捕获能力。
摘要由CSDN通过智能技术生成

参考:

这个视频量短而精

https://www.youtube.com/watch?v=XhWdv7ghmQQ

GitHub - wangshusen/DeepLearning


 

以机器翻译、rnn-seq2se2引入attention为例

1.attention

最早提出attention的是15年的这篇论文

 在encoder结束之后,output一个全局的s0,这包含了h1...hm的所有信息,同时s0也作为decoder的input。

权重apha表示s和h的相关性,(相关性越高,权重越大)。

encoder有m个状态,所以一共有m个apha,这里所有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值