#论文《Deep Residual Learning for Image Recognition》

最新推荐文章于 2023-02-27 20:12:19 发布

arthur503

最新推荐文章于 2023-02-27 20:12:19 发布

阅读量306

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/arthur503/article/details/81289472

版权

2015年微软的研究论文介绍了深度残差学习框架，旨在解决深度神经网络训练中的梯度消失和爆炸问题。通过拟合残差而非原始函数，该方法能够有效地训练超过30层的网络，甚至达到152层（ImageNet）和1000层（CIFAR-10）而不降低性能。实验结果显示，这种方法在ImageNet上取得了3.57%的顶级5错误率，显著优于当时的其他方法，并在COCO数据集上提高了约28%的表现。研究还指出，尽管增加了网络深度，但计算量和参数数量并未显著增加。

摘要由CSDN通过智能技术生成

2015年的paper，微软何凯明等。

解决的问题：

梯度消失/爆炸问题；
1. 之前的解决方案：This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start con- verging for stochastic gradient descent (SGD) with back- propagation [22].
The degradation (of training accuracy) ：可能深层的网络训练结果反而没有浅层好，并且这个问题并非由过拟合导致。结果，之前最深的网络基本在30层以内。

解决的思路：

residual learning reformulation ：拟合残差，来解决梯度消失/爆炸问题。
1. 假设输出是H(x)，某层可以拟合残差F(x) = H(x) - x。理论上等价。但是，H(x)中要经过多层非线性转换，可能有梯度问题。而用残差你和，就没有这个问题了。

认为高深度网络不应该比低深度网络差，通过shortcut来做恒等映射，使得至少让高深度网络表现不差于低深度网络。这样，以后可以在计算能力可以的情况下，可以增加任意多层。

附加的问题和结果:

最低0.47元/天解锁文章

arthur503

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#论文《Deep Residual Learning for Image Recognition》

2015年的paper，微软何凯明等。解决的问题：梯度消失/爆炸问题；之前的解决方案：This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37, 13] and intermediate normalization layers [16], w...
复制链接

扫一扫