5.3.8注意力机制(如图)

我的理解如图1所示

                                                                                 图一

问题

1加入了注意力机制后有什么不同?

答案:如果没有注意力机制,只有双循环RNN,那么系统结构就对应图一中的下面两层(黑色,灰色部分),系统会直接输出y1,y2,y3,y4。加入注意力机制后,系统不会直接输出y1,y2,y3,y4,而是对每个y_{i}(i=1,2,3,4)附上权重(w_{11}w_{12}w_{13}w_{14}),融合后结合s0输出\widehat{y}^{<1>};第二次将y1,y2,y3,y4与权重w_{21}w_{22}w_{23}w_{24}融合后结合s1输出\widehat{y}^{<2>},后面以此类推。

在训练出权重以后会让w_{i1}w_{i2}w_{i3}w_{i4}(其中i=1,2,3....Ty,本系统中Ty等于4)送入softmax层,最后会得到{w_{i1}}'{w_{i2}}'{w_{i3}}'{w_{i4}}',并且\sum_{i}^{j}({w_{ij}}')=1,这样每翻译一个词系统就会参考原y1y2y3y4的权重,权重越大,则该权重对应的yi对本次翻译的贡献最大,也最重要。(\widehat{y}^{<1>}和s1是否相等有待考察,我没有做过实验,但是我觉得应该不相等,前者应该是激活后的向量,后者是未激活的列向量)

由于看懂本文需要明白基本的RNN模型,如果暂时不明白,博主推荐几篇很详细的博文,附链接

https://www.zhihu.com/question/68482809/answer/264632289

https://blog.csdn.net/hpulfc/article/details/80449561

https://blog.csdn.net/hpulfc/article/details/80448570

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值