8_Self-Attention（自注意力机制）

最新推荐文章于 2023-12-11 00:44:14 发布

少云清

最新推荐文章于 2023-12-11 00:44:14 发布

阅读量208

点赞数

分类专栏： NLP 文章标签：深度学习自然语言处理 lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/brawly/article/details/122710982

版权

NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

一、Self-Attention
二、SimpleRNN + Self-Attention
三、Summary（总结）

一、Self-Attention

Self-Attention，把Attention用在一个RNN网络上
Attention可以用在所有的RNN上
Self-Attention [2]: attention [1] beyond Seq2Seq models.
The original self-attention paper uses LSTM .（self-attention的原始论文，把attention用在LSTM上）
To make teaching easy, I replace LSTM by SimpleRNN.（我把LSTM换成SimpleRNN）

Original paper:

Bahdanau, Cho, & Bengio. Neural machine translation by jointly learning to align and translate. in ICLR, 2015.
Cheng, Dong, & Lapata. Long Short-Term Memory-Networks for Machine Reading. In EMNLP, 2016.

二、SimpleRNN + Self-Attention

初始时，C₀ 和状态向量h₀ 都是全零向量。
RNN读入第一个输入X₁ ，需要更新状态h，把X₁ 的信息压缩到新的状态h中，计算h₁
下一步，计算C₁ ，是已有状态的加权平均。

想要计算C_i ，需要计算权重α_i ，计算第二个Weights：α_i = align(h_i ，h₂).
对已有的状态h₁，和h₂做加权平均来计算C，由于h₀为全零向量，以后忽略h₀
之后不断重复这个过程。

三、Summary（总结）

With self-attention, RNN is less likely to forget.（self-attention不局限于Seq2Seq模型，self-attention可以用在所有的RNN上）
Pay attention to the context relevant to the new input.（除了避免遗忘，self-attention能帮助RNN关注相关的信息）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
8_Self-Attention（自注意力机制）

Self-Attention（自注意力机制）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

少云清 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。