【Transformer论文：Attention Is All You Need】2.论文精读

最新推荐文章于 2024-01-23 16:15:35 发布

猎猎长风

最新推荐文章于 2024-01-23 16:15:35 发布

阅读量204

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40633696/article/details/114945865

版权

自然语言处理专栏收录该内容

29 篇文章 12 订阅

订阅专栏

一、知识树

二、算法模型总览

注：这一部分主要介绍在论文改进前的原有模式模型

三、Self Attention

1. Scaled Dot-Product Attention

input

X1乘以WQ等于q1，X1乘以WK等于k1。

除以根号dk的目的是为了使得后续通过softmax得到的结果使得梯度很小。

q1和k1的乘积明显比q1和k2的乘积大，说明Thinking与自身的关系比与Machines的关系要密切。

2. Multi Head Attention

以两个head为例，将上面Scaled Dot-Product Attention中的q拆分为q1和q2（WQ拆分为WQ1和WQ2，WQ1*X=q1，WQ2*X=q2）。qi,1必须和ki,1或kj,1相乘最后乘以vi,1或vj,1，qi,2必须和ki,2或kj,2相乘最后乘以vi,2或vj,2。

将W矩阵切成8个小矩阵，head的数量就是8。Z0-Z7拼接起来与Wo相乘得到Z矩阵。

encoder的输出都是512维的。

四、Feed-Forward network

五、Positional Encoding

六、Mask

1、 Sequence Mask
为了防止decoder 的时候看到未来的信息
2、 Padding Mask
attention时处理 pad 时为 0 的值原

七、Layer Normalization

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Transformer论文：Attention Is All You Need】2.论文精读

一、论文结构二、摘要
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。