残差连接 residual connection 详解

晨晨丶

已于 2024-03-16 10:06:05 修改

阅读量1.1w

点赞数 21

分类专栏：算法文章标签：算法深度学习 python 人工智能

于 2024-03-12 08:36:35 首次发布

本文链接：https://blog.csdn.net/qq_43700729/article/details/136626602

版权

算法专栏收录该内容

11 篇文章

订阅专栏

前沿

残差连接（Residual Connection）是一种常用于深度学习模型中的技术，旨在帮助解决随着网络深度增加而出现的梯度消失或梯度爆炸问题。它首次由He等人在2015年的论文《Deep Residual Learning for Image Recognition》中提出，并迅速成为构建深度网络架构的一个重要组成部分，尤其是在图像识别、语音识别和自然语言处理等领域。残差连接的核心思想是在网络的某一层引入前面层的输出作为后面层的一部分输入，通过这种方式可以直接传播梯度，有助于深层网络的训练。

基本概念

残差连接的核心思想是在网络的一层或多层之间引入直接连接，使得这些层的输出不仅包括经过非线性变换的特征，还包括未经处理的输入特征。这样做的目的是允许网络学习到的是输入和输出之间的残差（即差异），而不是直接学习一个完整的映射。这种方式有助于梯度在训练过程中更有效地回流，减轻深度网络中梯度消失的问题。

核心概念

残差连接的核心思想是引入一个“快捷连接”（shortcut connection）或“跳跃连接”（skip connection），允许数据绕过一些层直接传播。这样，网络中的一部分可以直接学习到输入与输出之间的残差（即差异），而不是直接学习到映射本身。具体来说，如果我们希望学习的目标映射是 H(x)，我们让网络学习残差映射 F(x)=H(x)−x。因此，原始的目标映射可以表示为 F(x)+x。

工作原理

在传统的深度神经网络中，每一层的输出是基于前一层的输出进行计算。当网络层次增加时，网络的训练变得困难，因为梯度在反向传播过程中容易消失或爆炸。残差连接通过添加额外的“快捷连接”（shortcut connections）来解决这个问题。这些快捷连接允许一部分输入直接跳过一个或多个层传到更深的层，从而在不增加额外参数或计算复杂度的情况下，促进梯度的直接反向传播。

具体来说：设想一个简单的网络层，其输入为 𝑥，要通过一个非线性变换 𝐹(𝑥) 来得到输出。在没有残差连接的情况下，这个层的输出就是 𝐹(𝑥)。当引入残差连接后，这个层的输出变为𝐹(𝑥) + 𝑥。这里的𝑥是直接从输入到输出的跳过连接（Skip Connection），𝐹(𝑥) + 𝑥即是考虑了输入本身的残差输出。这样设计允许网络在需要时倾向于学习更简单的函数（例如，当 𝐹(𝑥) 接近0时，输出接近输入），这有助于提高网络的训练速度和准确性。