Attention、self-attention：从计算、公式的角度详解

最新推荐文章于 2024-04-23 22:26:12 发布

ZcsLv_zyq

最新推荐文章于 2024-04-23 22:26:12 发布

阅读量673

点赞数

分类专栏：深度学习 nlp 文章标签：深度学习自然语言处理人工智能 attention机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZcsLv_zyq/article/details/121990437

版权

本文详细介绍了注意力机制（attention）和自注意力（self-attention）的概念，以机器翻译和RNN-Seq2Seq模型为例，探讨了注意力机制在模型中的作用。文章通过分析不同的计算方式，如softmax归一化，解释了如何计算权重并形成加权平均的上下文向量。此外，还讨论了自注意力在单一RNN中的应用，如何利用当前时刻的隐藏状态与历史状态的相关性来解决RNN的遗忘问题，从而增强模型的信息捕获能力。

摘要由CSDN通过智能技术生成

参考：

这个视频量短而精

https://www.youtube.com/watch?v=XhWdv7ghmQQ

GitHub - wangshusen/DeepLearning

以机器翻译、rnn-seq2se2引入attention为例

1.attention

最早提出attention的是15年的这篇论文

在encoder结束之后，output一个全局的s0,这包含了h1...hm的所有信息，同时s0也作为decoder的input。

用权重apha表示s和h的相关性，（相关性越高，权重越大）。

encoder有m个状态，所以一共有m个apha,这里所有

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。