#论文 《Deep Residual Learning for Image Recognition》

2015年微软的研究论文介绍了深度残差学习框架,旨在解决深度神经网络训练中的梯度消失和爆炸问题。通过拟合残差而非原始函数,该方法能够有效地训练超过30层的网络,甚至达到152层(ImageNet)和1000层(CIFAR-10)而不降低性能。实验结果显示,这种方法在ImageNet上取得了3.57%的顶级5错误率,显著优于当时的其他方法,并在COCO数据集上提高了约28%的表现。研究还指出,尽管增加了网络深度,但计算量和参数数量并未显著增加。
摘要由CSDN通过智能技术生成

2015年的paper,微软何凯明等。

解决的问题:

  1. 梯度消失/爆炸问题;

    1. 之前的解决方案:This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start con- verging for stochastic gradient descent (SGD) with back- propagation [22].

  2. The degradation (of training accuracy) :可能深层的网络训练结果反而没有浅层好,并且这个问题并非由过拟合导致。结果,之前最深的网络基本在30层以内。

解决的思路:

  1. residual learning reformulation :拟合残差,来解决梯度消失/爆炸问题。

    1. 假设输出是H(x),某层可以拟合残差F(x) = H(x) - x。理论上等价。但是,H(x)中要经过多层非线性转换,可能有梯度问题。而用残差你和,就没有这个问题了。

  1. 认为高深度网络不应该比低深度网络差,通过shortcut来做恒等映射,使得至少让高深度网络表现不差于低深度网络。这样,以后可以在计算能力可以的情况下,可以增加任意多层。

 

附加的问题和结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值