5.3.8注意力机制（如图）

最新推荐文章于 2023-06-06 12:07:01 发布

dqefd2e4f1

最新推荐文章于 2023-06-06 12:07:01 发布

阅读量267

点赞数

分类专栏：深度学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dqefd2e4f1/article/details/85030422

版权

深度学习基础专栏收录该内容

22 篇文章 1 订阅

订阅专栏

我的理解如图1所示

图一

问题

1加入了注意力机制后有什么不同？

答案：如果没有注意力机制，只有双循环RNN，那么系统结构就对应图一中的下面两层（黑色，灰色部分），系统会直接输出y1,y2,y3,y4。加入注意力机制后，系统不会直接输出y1,y2,y3,y4,而是对每个 $y_{i}$ (i=1,2,3,4)附上权重（ $w_{11}w_{12}w_{13}w_{14}$ ）,融合后结合s0输出 $\widehat{y}^{<1>}$ ;第二次将y1,y2,y3,y4与权重 $w_{21}w_{22}w_{23}w_{24}$ 融合后结合s1输出 $\widehat{y}^{<2>}$ ,后面以此类推。

在训练出权重以后会让 $w_{i1}w_{i2}w_{i3}w_{i4}$ (其中i=1,2,3....Ty,本系统中Ty等于4)送入softmax层，最后会得到 ${w_{i1}}'{w_{i2}}'{w_{i3}}'{w_{i4}}'$ ,并且 $\sum_{i}^{j}({w_{ij}}')=1$ ,这样每翻译一个词系统就会参考原y1y2y3y4的权重，权重越大，则该权重对应的yi对本次翻译的贡献最大，也最重要。（ $\widehat{y}^{<1>}$ 和s1是否相等有待考察，我没有做过实验，但是我觉得应该不相等，前者应该是激活后的向量，后者是未激活的列向量）

由于看懂本文需要明白基本的RNN模型，如果暂时不明白，博主推荐几篇很详细的博文，附链接

https://www.zhihu.com/question/68482809/answer/264632289

https://blog.csdn.net/hpulfc/article/details/80449561

https://blog.csdn.net/hpulfc/article/details/80448570

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。