Wide Residual Networks

Abstract

  • 深残留网络被证明能够扩展到数千层,并且仍然具有改进的性能。然而,每提高1%的精度,就要花费将近两倍的层数,因此训练非常深的剩余网络就有一个减少特征重用的问题,这使得这些网络训练非常缓慢。为了解决这些问题,本文对resnet块的结构进行了详细的实验研究,在此基础上提出了一种新的结构,该结构减少了剩余网络的深度,增加了剩余网络的宽度。我们称所得的网络结构为宽剩余网络(WRNs),并表明这些网络结构远远优于通常使用的薄且非常深的对等网络。例如,我们证明,即使是一个简单的16层深宽残差网络,在精度和效率上都优于所有以前的深残差网络,包括千层deep网络,在cifar、svhn、coco上取得了最新的技术成果,以及ImageNet的显著改进。

Introduction

  • 卷积神经网络的层数在过去几年中逐渐增加,从alexnet[16]、vgg[26]、inception[30]到residual[11]网络,与许多图像识别任务的改进相对应。近年来,深网络的优越性在一些研究中被发现[3,22]。然而,训练深层神经网络有几个困难,包括爆炸/消失梯度和退化。有人提出了各种技术来支持深层神经网络的训练,例如精心设计的初始化策略[1,12]、更好的优化器[29]、跳过连接[19,23]、知识转移[4,24]和分层训练[25]。
  • 最新的残差网络[11]在ImageNet和COCO2015竞赛中赢得了巨大成功,并在多个基准测试中达到了最先进的水平,包括ImageNet和CIFAR上的对象分类,PASCAL VOC和MS COCO上的对象检测和分割。与Inception架构相比,它们显示出更好的通用性,这意味着可以在转移学习中以更高的效率利用这些功能。 此外,后续工作表明,残留链接可加速深度网络的融合[31]。 最近的后续工作探索了残差网络中激活的顺序,在残差块中显示了身份映射[13],并改善了非常深层网络的训练。通过使用高速公路网络[28],也可以成功训练非常深的网络[28],这是在残留网络之前提出的一种架构。 残留网络和公路网络之间的本质区别在于,在后者中,残留链路被选通,并且可以了解这些门的权重。
  • 因此,到目前为止,残差网络的研究主要集中在ResNet块内部的激活顺序和残差网络的深度。 在这项工作中,我们尝试进行超出上述几点的实验研究。 通过这样做,我们的目标是探索ResNet块的更丰富的网络体系结构,并彻底检查除激活顺序以外的其他几个方面如何影响性能。 正如我们在下面解释的那样,对体系结构的这种探索导致了新的有趣发现,这些发现对于残差网络具有非常重要的现实意义。
  • 浅层与深层网络的问题在机器学习中已经讨论了很长时间了[2,18],并指出了电路复杂性理论的文献,这些文献表明,浅层电路比深层电路需要指数级的组件。 残差网络的作者试图使它们尽可能薄,以增加其深度并减少参数,甚至引入了“瓶颈”块,使ResNet块更薄。
  • 然而,我们注意到,具有身份映射的残差块允许训练非常深的网络,同时也是残差网络的一个弱点。当梯度通过网络时,没有什么可以强迫它通过残差块权重,并且它可以避免在训练过程中学习任何东西,因此有可能只有几个块可以学习有用的表示,或者许多块共享很少的信息。对最终目标的贡献很小。在[28]中,这个问题被描述为减少特征重用。[14]的作者试图通过在训练过程中随机禁用剩余块来解决这个问题。该方法可以被视为辍学的特殊情况[27],其中每个剩余块具有应用辍学的标识标量权重。该方法的有效性证明了上述假设。
  • 基于上述观察,我们的工作建立在[13]的基础上,试图回答剩余网络应该有多宽的问题,并解决培训问题。在这种情况下,我们表明,与增加剩余网络的深度相比,扩大resnet块(如果做得好)提供了一种更有效的方法来提高剩余网络的性能。特别是,我们提出了更广泛的深部残余网络,其显著改善超过[13],具有50倍的较少层和超过2倍的速度。我们称其为广义剩余网络。例如,我们的宽16层深网络与1000层薄深网络具有相同的精度和相当数量的参数,尽管训练速度要快几倍。因此,这类实验似乎表明,它们在深度残差网络的功率中是在残差块中,并且深度的影响是补充的。我们注意到,人们可以训练甚至有更好的宽的剩余网络,具有两倍多的参数(以及更多),这意味着为了通过提高薄网络的深度来进一步提高性能,在这种情况下需要增加数千层。
  • 辍学是在[27 ]中引入的,然后被许多成功的架构采纳为[16,26]等,它主要应用于具有大量参数的玩家以防止特征共适应和过度运算。然后将其主要用批处理归一化(15)代替,这是通过将其归一化为具有C分布的技术来减少神经网络激活内协变量移位的技术。实验结果表明,采用批量归一化的网络比采用漏失的网络具有更好的精度。在我们的案例中,由于残差块的扩大导致参数数量的增加,我们研究了退学对规范训练和防止过度训练的影响。以前,在[13 ]中研究了残差网络中的辍学现象,其中辍学被插入到块的身份部分中,并且作者表现出负面影响。相反,我们在这里主张,辍学应该插入到卷积层之间。在宽残差网络上的实验结果表明,这导致了一致的增益,甚至产生了新的最新状态的结果。
  • 总之,这项工作的贡献如下:
  1. 我们对剩余网络结构进行了详细的实验研究,深入研究了resnet块结构的几个重要方面。
  2. 我们为resnet块提出了一种新的加宽架构,允许残余网络显著提高性能。
  3. 我们提出了一种新的方法来利用深度剩余网络中的辍学现象,以便适当地将其规范化,并防止培训过程中的过度训练。
  4. 最后,我们证明我们提出的resnet架构在多个数据集上取得了最新的结果,显著提高了剩余网络的准确性和速度。

Wide Residual Networks

  • 与文献[13]中的原结构[11]相比,残差块的批量规范化、激活和卷积的顺序由conv-bn-relu变为bn-relu-conv。由于后者训练速度更快,效果更好,我们不考虑原始版本。此外,所谓的“瓶颈”块最初被用来使无块计算代价高昂,以增加层的数量。由于我们想研究加宽和“瓶颈”被用来使网络变薄的影响,我们也不考虑它,而是关注“基本”的剩余架构。
  • 本质上,有三种简单的方法可以提高残差块的表示能力:
  1. 为每个块添加更多卷积层
  2. 通过添加更多特征平面来扩大卷积层
  3. 增加卷积层中的滤波器尺寸
  • 由于小型过滤器在包括[26,31]在内的几项工作中被证明非常有效,因此我们不考虑使用大于3×3的过滤器。 让我们还介绍两个因素,加深因子l和加宽因子k,其中l是块中的卷积数,k乘以卷积层中要素的数量,因此基线“基本”块对应于l = 2,k =1。
  • 我们的残差网络的一般结构如表1所示:它包括一个初始卷积层conv1,其后是3组残差块conv2,conv3和conv4(每个为N个大小),然后是平均池化和最终分类层。 conv1的大小在我们所有的实验中都是固定的,而引入的加宽因子k则可缩放conv2-4三组中剩余块的宽度(例如,原始的“基本”体系结构等效的tok = 1)。 Wewanttostudy对残差块的表示能力的影响,为此,我们执行和测试了对“基本”体系结构的一些修改,以下小节将对此进行详细介绍。
  • 我们还对块深化因子L进行了实验,以了解它如何影响性能。必须在具有相同数量参数的网络之间进行比较,因此在这种情况下,我们需要构建具有不同L和D(其中D表示块的总数)的网络,同时确保网络复杂性大致保持不变。这意味着,例如,当l增加时,d应该减少。
  • 除了上述修改,我们还尝试了块的扩展因子k。 尽管参数的数量随l(加深因子)和d(ResNet块的数量)线性增加,但参数的数量和计算复杂度却以k为平方。 但是,由于GPU在大张量的并行计算中效率更高,因此与数千个小内核相比,加宽层的计算效率更高,因此我们对d与k的最佳比例感兴趣。
  • 更广泛的剩余网络的一个论点是,几乎所有剩余网络之前的架构,包括最成功的inception[30]和vgg[26],都比[13]宽得多。例如,剩余网络wrn-22-8和wrn-16-10(关于这个符号的解释,见下一段)在宽度、深度和参数数量上与vgg架构非常相似。我们进一步将k=1的原始剩余网络称为“thin”,将k>1的网络称为“wide”。在本文的其余部分中,我们使用以下符号:wrn-n-k表示具有总卷积层数n和加宽因子k的剩余网络(例如,具有40层且k=比原始网络宽2倍的网络将被表示为wrn-40-2)。此外,如果适用,我们附加块类型,例如wrn-40-2-b(3,3)。
  • 随着参数的增加,我们想研究正则化的方法。 残留网络已经具有批量归一化功能,可以提供正则化效果,但是它需要大量的数据扩充,这是我们希望避免的,而且并非总是可能的。 我们在卷积之间的每个残差块中添加一个辍学层,如图g所示。 1(d)和ReLU之后,扰动下一个剩余区块中的批次标准化,并防止其过度拟合。 在非常深的残差网络中,这将有助于处理不断减少的功能重用问题,从而在不同残差块中强制学习。

Conclusions

  • 我们提出了一项关于残差网络的宽度以及残差体系结构中丢包的使用的研究。 基于这项研究,我们提出了一种广泛的残差网络架构,该架构可以在几个常用的基准数据集(包括CIFAR-10,CIFAR-100,SVHN和COCO)上提供最新的结果,以及ImageNet上的显着改进。 我们证明,只有16层的广域网可以在CIFAR上明显胜过1000层的深层网络,而ImageNet上的50层则胜过152层,因此表明残留网络的主要功能在于残留块,而不是 如前所述在极端深度。 同样,广泛的残差网络的训练速度快几倍。 我们认为,这些有趣的发现将有助于深度神经网络研究的进一步发展。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值