深度解析transformer(总结精华)

深度解析transformer(总结精华)

参考原博客:https://wmathor.com/index.php/archives/1438/

Encoder

在这里插入图片描述

1.Embedding

矩阵行表示有多少个次,列表示dimension(embedding的维度)

2. Positional Encoding

在这里插入图片描述
在这里插入图片描述
结论:随着维度方向增大,sin\cos的震幅会越来越平缓。
在这里插入图片描述
在这里插入图片描述
结论:随着维度增大,振幅会越来越平缓

2. Self Attention Mechanism

在这里插入图片描述

x1/x2/x3/…/xm表示word,q乘每个ki做softmax后,作为该word观察到各个word的权重。
在这里插入图片描述
在这里插入图片描述
C和x的维度一模一样
在这里插入图片描述
Q是nxd矩阵,K是nxd矩阵
在这里插入图片描述
self-attetion的计算复杂度:
在这里插入图片描述

为什么要除根号d?防止输入softmax的数过大,偏导数接近0,梯度消失
在这里插入图片描述

注意:Padding Mask

每个batch-size里面的维度应该是同样的
在这里插入图片描述

在这里插入图片描述

3.Add&Normalization在这里插入图片描述

在这里插入图片描述
X_embedding就是浅绿色那个x1(X_position+X_word-embedding)

在这里插入图片描述

4.Feedforward

在这里插入图片描述

Decoder

在这里插入图片描述

1.Masked Self-Attention

前面的词看不到后面的
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值