Transformer的残差连接

最新推荐文章于 2025-04-21 15:43:20 发布

可姆可汗

最新推荐文章于 2025-04-21 15:43:20 发布

阅读量1.4w

点赞数 14

分类专栏： NLP 文章标签：深度学习人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42890800/article/details/111501057

版权

NLP 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了Transformer模型中使用的残差连接技术。通过引入残差连接，可以有效解决深层网络中的梯度消失问题，并有助于缓解权重矩阵退化的问题。文中详细解释了如何在Transformer的编码器和解码器中应用残差连接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在学习Transformer的过程中，编码器和解码器都用到了残差连接，下面我总结一下残差连接。

假如我们的输入为X，要得到的输出为H(X)。那么我们可以通过 H = F(X) + X，转换为学习F。等得到F的输出后，在此基础上加上X即可得H的输出。

在Transformer中，此时的F即是下图中的Multi-Head Attention和Feed Forward，我们再加上X即可得到需要的输出。下图中的Add & Norm中的Add即为此意。Norm的意思就是在后面跟了一个归一化层。论文原文中的公式为 LayerNorm(X + SubLayer(X))，SubLayer就是我上文说的F。
在这里插入图片描述
说完这些，那残差连接有什么好处呢？
主要有两点，一是解决梯度消失的问题，二是解决权重矩阵的退化问题。具体可以看看知乎的这篇文章：【模型解读】resnet中的残差连接，你确定真的看懂了？

博客等级

码龄7年

70
原创

99
点赞

265
收藏

58
粉丝

关注

私信

热门文章

分类专栏

NLP论文笔记 5篇
分布式机器学习论文笔记 12篇
RDMA 6篇
强化学习 3篇
计算机系统 1篇
NLP 3篇
机器学习 2篇
工具 3篇
好文 3篇
计组 1篇
计网 2篇
Python 13篇
网页前端 4篇
Linux 4篇
算法导论 3篇
C/C++ 11篇

展开全部收起

上一篇：: Bash部分知识点总结

下一篇：: 《GECToR -- Grammatical Error Correction: Tag, Not Rewrite》论文笔记

最新评论

计算机网络好文链接
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
Python中主要数据结构的使用
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Near-Optimal Topology-adaptive Parameter Synchronization in Distributed DNN Training（论文笔记）
qq_44477955: 性质2中子块的通信时间真的搞不懂，为什么第一个子块传输到根节点的最大时间是N-1个单位，而剩余的s-1个子块传到根节点的时间却是s-1个单位时间，不应该是（s-1）*（N-1）么，总时间竟然是s+N-2个单位时间，而不是s*（N-1）
Near-Optimal Topology-adaptive Parameter Synchronization in Distributed DNN Training（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
本地使用 jupyter notebook 连接远程服务器
绿毛水怪tbO3: 端口映射时需要访问密码，请问这个密码是用户的密码还是token呢？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。