Transformer模型-add & norm（残差连接&归一化）的简明介绍：残差连接，增加深度，不丢失初始的特征；归一化，避免梯度消失，减少运算

Ankie（资深技术项目经理）

已于 2024-04-15 22:23:45 修改

阅读量1.8k

点赞数 5

分类专栏：学习Python 人工智能AI 虚拟现实VR 黑客帝国 # Transformer模型文章标签： transformer 深度学习人工智能 pytorch 线性回归残差连接归一化

于 2024-04-07 00:15:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ank1983/article/details/137398793

版权

人工智能AI 虚拟现实VR 黑客帝国同时被 3 个专栏收录

76 篇文章 3 订阅

订阅专栏

34 篇文章 0 订阅

订阅专栏

Transformer模型

22 篇文章 0 订阅

订阅专栏

今天介绍transformer模型的add & norm（残差连接&归一化）

add代表残差连接（Residual Connection）

残差连接是一种跳过连接,它将输入添加到网络的中间层或输出上。

**残差连接（Residual Connection）**是一种在深度神经网络中使用的连接技术，旨在解决深度神经网络训练过程中的梯度消失和表示瓶颈问题。具体来说，残差连接允许模型的某一层的输出直接跳过一层或多层，作为后续层的输入。这种跳层连接的方式使得梯度可以更容易地反向传播，从而有助于训练深层网络。

在残差网络中，一个或多个层的输出（称为残差）会被添加到这些层的输入中，形成所谓的残差块。通过这种方式，网络能够学习输入和输出之间的残差表示，而不是直接学习从输入到输出的完整映射。这有助于网络更容易地优化和学习复杂的函数。

残差块通常采用两种连接方式:
1)恒等映射:y = x + F(x)
2)投影映射:y = x + F(x) * W,其中W是一个可学习的1x1卷积

norm = Normalization归一化

在transformer里面，使用layer normalization。

具体参看：

Transformer模型-Normalization归一化的简明介绍-CSDN博客https://blog.csdn.net/ank1983/article/details/137398706

add&norm在transformer的每个子层都出现：

add：残差连接，可以增加深度，不丢失初始的特征。
norm归一化，因为add把原始的特征加回来，为了避免梯度消失，减少运算，进行归一化处理。

Ankie（资深技术项目经理）

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer模型-add & norm（残差连接&归一化）的简明介绍：残差连接，增加深度，不丢失初始的特征；归一化，避免梯度消失，减少运算

add&norm在transformer的每个子层都出现：add增加残差连接，可以增加深度，不丢失初始的特征。norm归一化，因为把原始的特征加回来，避免梯度消失，减少运算，进行归一化处理。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ankie（资深技术项目经理） 打赏就是赞赏，感谢你的认可！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。