ResNet解决了什么问题？

最新推荐文章于 2025-02-12 17:30:46 发布

qq184861643

最新推荐文章于 2025-02-12 17:30:46 发布

阅读量1.5k

点赞数

分类专栏： # deep-learning

本文链接：https://blog.csdn.net/qq184861643/article/details/89438047

版权

ResNet通过引入shortcut结构，解决了深度网络优化中的平滑解空间、梯度相关性、浅层网络集成和恒等映射问题，使得深层网络训练更容易且性能更优。其核心优势在于构造了更平滑的损失景观，保持了梯度相关性，并通过恒等映射简化了网络学习目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ResNet解决的根本问题是什么？

相同深度的一般前向网络的解集合和resnet的解集合是相等的，所以resnet解决的并不是模型表达能力的问题，而是模型优化问题。

ResNet是如何解决优化问题的？

1.更平滑的解空间的流形

在这里插入图片描述
从文献Visualizing the Loss Landscape of Neural Nets中截取的图可以看到，ResNet通过shortcut结构构建了一个相较于一般前向网络更加平滑的解空间的流形（Loss Landscape），使得模型的优化（梯度更新）更好求解。
从这篇论文的实验结果来看，网络结构定义了解空间的流形。
另外附上这个点的理论解释信息门下走狗的知乎回答

2.梯度相关性

根据论文The Shattered Gradients Problem: If resnets are the answer, then what is the question?的内容来看，我们知道结构化的数据（如图像）是有局部相关性的，与数据相似，反向传播时更新的梯度实际上也有类似的相关性。而随着网络的加深，反传的梯度之间的相关性会越来越弱，一般前向网络的梯度会随着网络层数的加深很快变成类似于白噪声的分布（这个可以理解成信息传播过程中的熵增所导致），此时每个神经元参数的改变对网络整体输出的影响会变得极度不稳定（参数与输出的正相关性或负相关性解耦，参数变化对输出的影响变得十分随机），使得网络的拟合变得十分困难，这也是对于一般前向网络来说，过深的网络表现反而会比浅层网络更差的原因。而这篇论文证明了resnet的shortcut结构实际上使得梯度相关性的解耦（即白化）过程变得缓慢了很多（相关性衰减从 $\frac{1}{2^L}$ 到了 $\frac{1}{\sqrt{L}}$ ），使得深层网络的训练更加容易拟合。