关于Transformer的一些阅读见解(非简单介绍一下网络结构)

Transformer相比传统经网络的创新之处

既和CNN如Resnet、VGG等一些神经网络不通 and 和RNN循环神经网络也不同

  • 并未使用循环卷积层,用的是注意力机制。
  • Encoder和Decoder有n个,因此叫多头注意力。

位置编码

Q:为什么需要位置编码?意义何在?(赢在了运算效率上,每个token是并行的,做到了硬件的适配)

传统RNN是顺序前向进行的,因此有序列前后的位置关系,但是transformer是并行计算每个词,会失去位置信息,因此需要进行位置编码。

多头注意力机制(下面的讲解基于向量,实际使用为了方便使用矩阵)

Mutihead Attention其实可以理解成一种输入降维的方式(为什么下文会降到)

  • 公式在此就简单列出一下,论文中都可以查到
    在这里插入图片描述

  • Attention公式的含义很重要:就是考察更加关注的信息。

残差连接(源于ResNet的residual block)

有效缓解了梯度消失的问题(为什么后面会推导)

在这里插入图片描述

Batch Normalization的详解,和Layer Normalization有什么区别?

BN是对不同样本,同一特征做regulation,而LN是相同样本,不同特征做regulation

在这里插入图片描述

BN的优点

  • 可以解决内部协变量偏移的问题
  • 缓解了梯度饱和的问题(若用sigmoid),加快了网络的收敛

BN的缺点

  • batch-size很小的时候,效果不好
  • BN在RNN中的效果差(为什么?也会详说)
    在这里插入图片描述

Decoder的详解(基于训练过程的解析,有几个问题值得大家思考)

在这里插入图片描述

Q1:第一个Encoder需要Masked-Multihead-Attention,为什么需要mask?

因为上文说过,Transformer的炸裂之处是运算效率,为了提高运算效率,我们的token是并行输入的,而不是RNN那种一步接一步。因此如果不进行mask,会导致所有输入的token对Decoder生成的某一输出提供信息,这是我们不愿意看到的。

Q2:Encoder与Decoder交互到底是怎么实现的?

  • Encoder生成的 K e n c o d e r K_{encoder} Kencoder V e n c o d e r V_{encoder} Vencoder与Decoder进行交互
  • Decoder的 Q Q Q来自于本身, K K K V V V来自于Encoder。

具体的代码请参考如下github(基于pytorch实现)

Transformer的pytorch实现

  • 16
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值