ResNet解决了什么问题?

ResNet通过引入shortcut结构,解决了深度网络优化中的平滑解空间、梯度相关性、浅层网络集成和恒等映射问题,使得深层网络训练更容易且性能更优。其核心优势在于构造了更平滑的损失景观,保持了梯度相关性,并通过恒等映射简化了网络学习目标。
摘要由CSDN通过智能技术生成

ResNet解决的根本问题是什么?

相同深度的一般前向网络的解集合和resnet的解集合是相等的,所以resnet解决的并不是模型表达能力的问题,而是模型优化问题。

ResNet是如何解决优化问题的?

1.更平滑的解空间的流形

在这里插入图片描述
从文献Visualizing the Loss Landscape of Neural Nets中截取的图可以看到,ResNet通过shortcut结构构建了一个相较于一般前向网络更加平滑的解空间的流形(Loss Landscape),使得模型的优化(梯度更新)更好求解。
从这篇论文的实验结果来看,网络结构定义了解空间的流形
另外附上这个点的理论解释信息门下走狗的知乎回答

2.梯度相关性

根据论文The Shattered Gradients Problem: If resnets are the answer, then what is the question?的内容来看,我们知道结构化的数据(如图像)是有局部相关性的,与数据相似,反向传播时更新的梯度实际上也有类似的相关性。而随着网络的加深,反传的梯度之间的相关性会越来越弱,一般前向网络的梯度会随着网络层数的加深很快变成类似于白噪声的分布(这个可以理解成信息传播过程中的熵增所导致),此时每个神经元参数的改变对网络整体输出的影响会变得极度不稳定(参数与输出的正相关性或负相关性解耦,参数变化对输出的影响变得十分随机),使得网络的拟合变得十分困难,这也是对于一般前向网络来说,过深的网络表现反而会比浅层网络更差的原因。而这篇论文证明了resnet的shortcut结构实际上使得梯度相关性的解耦(即白化)过程变得缓慢了很多(相关性衰减从 1 2 L \frac{1}{2^L} 2L1 到了 1 L \frac{1}{\sqrt{L}} L 1),使得深层网络的训练更加容易拟合。

3.浅层网络ensemble

根据论文Residual Networks Behave Like Ensembles of Relatively Shallow Networks,残差网络是很多浅层网络的集成(ensemble)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值