梯度消失是指在网络反向传播时,梯度值逐渐变小,导致靠近输入层的权重更新非常缓慢甚至停止更新。模型退化则是指随着网络层数的增加,训练误差反而上升的现象。
ResNet的关键思想是在网络中添加一个从输入到输出的“短路”连接(即恒等映射),使得网络可以学习输入和输出之间的“残差”函数。具体来说,残差连接通过将输入直接加到卷积层的输出来实现。
ResNet的核心思想是引入残差块(Residual Block),它通过跳过连接(Shortcut Connection)或恒等映射(Identity Mapping)来连接块的输入和输出。这种结构可以使网络在反向传播时,梯度直接通过跳过连接流回前面的层,从而缓解梯度消失问题。同时,由于残差块学习的是输入与输出之间的残差,因此当残差为0时,网络至少可以保持与浅层网络相同的性能,从而避免模型退化。
残差块不是直接学习输入到输出的映射,而是学习输入与输出之间的“残差”(即差值)。这意味着,对于残差块F(x),它的实际映射关系是H(x) = F(x) + x,其中x是输入,F(x)是学习的残差函数,H(x)是目标输出。当残差为0时,H(x)等于x,这构成了一个恒等映射,网络性能至少不