关于Transformer的一些阅读见解(非简单介绍一下网络结构)
Transformer相比传统经网络的创新之处
既和CNN如Resnet、VGG等一些神经网络不通 and 和RNN循环神经网络也不同
- 并未使用循环卷积层,用的是注意力机制。
- Encoder和Decoder有n个,因此叫多头注意力。
位置编码
Q:为什么需要位置编码?意义何在?(赢在了运算效率上,每个token是并行的,做到了硬件的适配)
传统RNN是顺序前向进行的,因此有序列前后的位置关系,但是transformer是并行计算每个词,会失去位置信息,因此需要进行位置编码。
多头注意力机制(下面的讲解基于向量,实际使用为了方便使用矩阵)
Mutihead Attention其实可以理解成一种输入降维的方式(为什么下文会降到)
-
公式在此就简单列出一下,论文中都可以查到
-
Attention公式的含义很重要:就是考察更加关注的信息。
残差连接(源于ResNet的residual block)
有效缓解了梯度消失的问题(为什么后面会推导)
Batch Normalization的详解,和Layer Normalization有什么区别?
BN是对不同样本,同一特征做regulation,而LN是相同样本,不同特征做regulation
BN的优点
- 可以解决内部协变量偏移的问题
- 缓解了梯度饱和的问题(若用sigmoid),加快了网络的收敛
BN的缺点
- batch-size很小的时候,效果不好
- BN在RNN中的效果差(为什么?也会详说)
Decoder的详解(基于训练过程的解析,有几个问题值得大家思考)
Q1:第一个Encoder需要Masked-Multihead-Attention,为什么需要mask?
因为上文说过,Transformer的炸裂之处是运算效率,为了提高运算效率,我们的token是并行输入的,而不是RNN那种一步接一步。因此如果不进行mask,会导致所有输入的token对Decoder生成的某一输出提供信息,这是我们不愿意看到的。
Q2:Encoder与Decoder交互到底是怎么实现的?
- Encoder生成的 K e n c o d e r K_{encoder} Kencoder、 V e n c o d e r V_{encoder} Vencoder与Decoder进行交互
- Decoder的 Q Q Q来自于本身, K K K、 V V V来自于Encoder。