【Transformer论文:Attention Is All You Need】2.论文精读

一、知识树

二、算法模型总览

注:这一部分主要介绍在论文改进前的原有模式模型

三、Self Attention

1. Scaled Dot-Product Attention

input

X1乘以WQ等于q1,X1乘以WK等于k1。

除以根号dk的目的是为了使得后续通过softmax得到的结果使得梯度很小。

q1和k1的乘积明显比q1和k2的乘积大,说明Thinking与自身的关系比与Machines的关系要密切。

2. Multi Head Attention

以两个head为例,将上面Scaled Dot-Product Attention中的q拆分为q1和q2(WQ拆分为WQ1和WQ2,WQ1*X=q1,WQ2*X=q2)。qi,1必须和ki,1或kj,1相乘最后乘以vi,1或vj,1,qi,2必须和ki,2或kj,2相乘最后乘以vi,2或vj,2。

将W矩阵切成8个小矩阵,head的数量就是8。Z0-Z7拼接起来与Wo相乘得到Z矩阵。

encoder的输出都是512维的。

四、Feed-Forward network

五、Positional Encoding

六、Mask

1、 Sequence Mask
为了防止decoder 的时候看到 未来的信息
2、 Padding Mask
attention时处理 pad 时为 0 的值原

七、Layer Normalization

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值