关于Transformer的一些阅读见解（非简单介绍一下网络结构）

创客阿博

已于 2024-04-09 19:05:45 修改

阅读量711

点赞数 16

文章标签： transformer 深度学习人工智能 nlp 计算机视觉

于 2024-04-09 19:00:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shineber/article/details/137562997

版权

关于Transformer的一些阅读见解（非简单介绍一下网络结构）

Transformer相比传统经网络的创新之处
- 既和CNN如Resnet、VGG等一些神经网络不通 and 和RNN循环神经网络也不同
位置编码
- Q：为什么需要位置编码？意义何在？（赢在了运算效率上，每个token是并行的，做到了硬件的适配）
多头注意力机制（下面的讲解基于向量，实际使用为了方便使用矩阵）
- Mutihead Attention其实可以理解成一种输入降维的方式（为什么下文会降到）
残差连接（源于ResNet的residual block）
- 有效缓解了梯度消失的问题（为什么后面会推导）
Batch Normalization的详解，和Layer Normalization有什么区别？
Decoder的详解（基于训练过程的解析，有几个问题值得大家思考）
- Q1:第一个Encoder需要Masked-Multihead-Attention，为什么需要mask？
- Q2:Encoder与Decoder交互到底是怎么实现的？
具体的代码请参考如下github（基于pytorch实现）

Transformer相比传统经网络的创新之处

既和CNN如Resnet、VGG等一些神经网络不通 and 和RNN循环神经网络也不同

并未使用循环卷积层，用的是注意力机制。
Encoder和Decoder有n个，因此叫多头注意力。

位置编码

Q：为什么需要位置编码？意义何在？（赢在了运算效率上，每个token是并行的，做到了硬件的适配）

传统RNN是顺序前向进行的，因此有序列前后的位置关系，但是transformer是并行计算每个词，会失去位置信息，因此需要进行位置编码。

多头注意力机制（下面的讲解基于向量，实际使用为了方便使用矩阵）

Mutihead Attention其实可以理解成一种输入降维的方式（为什么下文会降到）

公式在此就简单列出一下，论文中都可以查到
Attention公式的含义很重要：就是考察更加关注的信息。

残差连接（源于ResNet的residual block）

有效缓解了梯度消失的问题（为什么后面会推导）

在这里插入图片描述

Batch Normalization的详解，和Layer Normalization有什么区别？

BN是对不同样本，同一特征做regulation，而LN是相同样本，不同特征做regulation

在这里插入图片描述

BN的优点

可以解决内部协变量偏移的问题
缓解了梯度饱和的问题（若用sigmoid），加快了网络的收敛

BN的缺点

batch-size很小的时候，效果不好
BN在RNN中的效果差（为什么？也会详说）

Decoder的详解（基于训练过程的解析，有几个问题值得大家思考）

在这里插入图片描述

Q1:第一个Encoder需要Masked-Multihead-Attention，为什么需要mask？

因为上文说过，Transformer的炸裂之处是运算效率，为了提高运算效率，我们的token是并行输入的，而不是RNN那种一步接一步。因此如果不进行mask，会导致所有输入的token对Decoder生成的某一输出提供信息，这是我们不愿意看到的。

Q2:Encoder与Decoder交互到底是怎么实现的？

Encoder生成的 $K_{encoder}$ 、 $V_{encoder}$ 与Decoder进行交互
Decoder的 $Q$ 来自于本身， $K$ 、 $V$ 来自于Encoder。

具体的代码请参考如下github（基于pytorch实现）

Transformer的pytorch实现

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
关于Transformer的一些阅读见解（非简单介绍一下网络结构）

本文是对于Transformer的一些个人阅读理解，不是网络结构的介绍，这些论文中都可以看到，希望能给大家带来一些共鸣，不足之处欢迎大家指正，共同学习。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。