【深度学习】入门理解ResNet和他的小姨子们(四)---WideResNet

文章全称:《Wide Residual Networks》
文章链接:https://arxiv.org/abs/1605.07146

ResNet的成功在深度学习上有着不可磨灭的地位,但是往往为了增加一点精度,就得增加大量的网络层。非常深的网络往往会出现diminishing feature reuse,这往往会导致网络的训练速度会变得相当的慢。为了解决这个问题,本文提出了wide ResNet

以往的深度学习网络一般都是瘦长型的,这样有个好处就是会减少相应的参数量。在电路复杂度理论中证明浅网络往往比深网络需要其指数倍的元件。因此ResNet就设计的thinner and deeper。

但是像ResNet这类网络也会存在着一些问题:
由于梯度在反向传播的时候,可以直接经过shortcut,而不用被强制经过residual block,这会导致可能只有很有限的layer学到了有用的知识,而
更多的layers对最终结果只做出了很少的贡献。这个问题也被称之为diminishing feature reuse。当然在后续的工作中,很多人都朝着解决这个问题的方向做,比如对residual block进行随机失活,类似于特殊的dropout。

基于上述问题,作者认为widening of ResNet blocks可能会提供更有效的方法。事实上作者搭建了16层的wide Residual Network的精度赶上了1000layer 的resNet, 并且在训练速度上提升了几倍。

另一个insight: Use of dropout in ResNet blocks

随着BN的提出,drop out用的越来越少了,由于BN的效果可以看做是一个正则化器,并且能够减少网络内部的covariate shift。事实上,前人在identity part中插入dropout时,效果变差。在本文中,作者选择了在两个卷积layer中加入了drop out, 事实证明结果提升了不少。

这里写图片描述

上图自左向右分别为:ResNet, bottleneck ResNet, WideResNet, Wide-dropout.

关于Wide:

作者的思路比较简单粗暴,第一组的conv不增加宽度,在后面的conv中将feature map扩宽:

这里写图片描述

其中k表示扩宽倍数

系列文章:
【深度学习】入门理解ResNet和他的小姨子们(一)—ResNet
http://blog.csdn.net/shwan_ma/article/details/78165966
【深度学习】入门理解ResNet和他的小姨子们(二)—DenseNet
http://blog.csdn.net/shwan_ma/article/details/78165966
【深度学习】入门理解ResNet和他的小姨子们(三)—ResNeXt
http://blog.csdn.net/shwan_ma/article/details/78203020
【深度学习】入门理解ResNet和他的小姨子们(四)—WideResNet
http://blog.csdn.net/shwan_ma/article/details/78168629
【深度学习】入门理解ResNet和他的小姨子们(五)—ResNet增强版
http://blog.csdn.net/shwan_ma/article/details/78595937

  • 8
    点赞
  • 66
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值