Identity Mappings in Deep Residual Networks

转载自:https://blog.csdn.net/wspba/article/details/60572886

在上一篇文章中,对MSRA何凯明团队的ResNet进行了介绍(地址),那篇文章中提到了,1202层的ResNet出现了过拟合的问题,有待进一步改进。第二年,何的团队就发表了“Identity Mappings in Deep Residual Networks”这篇文章,分析了ResNet成功的关键因素——residual block背后的算法,并对residual block以及after-addition activation进行改进,通过一系列的ablation experiments验证了,在residual block和after-addition activation上都使用identity mapping(恒等映射)时,能对模型训练产生很好的效果,通过这项改进,也成功的训练出了具有很好效果的ResNet-1001。

在原始的ResNet中,对于每一个residual building block:
这里写图片描述
可以表现为以下形式:

yl=h(xl)+F(xl,Wl),xl+1=f(yl),yl=h(xl)+F(xl,Wl),xl+1=f(yl),
代表ReLU激活函数。

而本文提出了,如果h(x)和f(y)都是恒等映射,即h(xl)=xlh(xl)=xl,而求和的计算量远远小于求积的计算量。

而对于反向传播,假设损失函数为EE,同时这个公式也保证了不会出现梯度消失的现象,因为这里写图片描述不可能为-1。

通过了以上分析,作者设计实验来进行验证。

首先,对于恒等跳跃连接h(xl)=xlh(xl)=xl的误差衰减最快、误差也最低,而其他形式的都产生了较大的损失和误差。
这里写图片描述
这里写图片描述

作者认为,捷径连接中的操作 (缩放、门控、1××1的卷积捷径连接引入了更多的参数,本应该比恒等捷径连接具有更加强大的表达能力。但是它的效果并不好,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。

接下来,对于激活函数,作者设计了以下几种形式:
这里写图片描述
实际上只是激活函数(ReLU/BN)的位置有所不同,由于作者希望构建一个恒等的f(yl)=ylf(yl)=yl也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预激活中使用BN能够提高模型的正则化,从而减少了过拟合的影响。

这篇文章为深层模型的训练提供了很好的方式和思路,也促进了深层模型的进一步发展,接下来我将会把这篇文章的译文提供给大家,也欢迎大家的批评指正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值