深度神经网络的聚集残差变换

摘要

提出了一种简单、高度模块化的图像分类网络体系结构。我们的网络是通过重复一个积木块来构造的,它聚合了一组具有相同拓扑的转换。我们的简单设计结果是一个同质的,多分支的架构,只有几个超参数可以设置。这种策略揭示了一个新的维度,我们称之为“基数”(转换集的大小),作为深度和宽度维度之外的一个基本因素。在ImageNet-1k数据集上,我们经验表明,即使在保持复杂性的限制条件下,增大基数也能提高分类精度。此外,当我们增加能力时,增加基数比深入或扩大更有效。我们的模型,命名为resext,是我们进入ILSVRC 2016分类任务的基础,在这个任务中我们获得了第二名。我们进一步研究了ImageNet-5k集和coco检测集上的研究结果,也显示了比RESNET更好的结果。代码和模型在第1行上是公开的。 

1、引言

对视觉识别的研究正在经历从“特征工程”到“网络工程”的转换[25,24,44,34,36,38,14]。与传统的手工设计的特征(例如SIFT[29]和HOG[5])相比,通过神经网络从大规模数据[33]中学习的特征在训练期间将最少的人的参与最小化,并且可以被传送到各种识别任务[7,10,28]。然而,人类的努力已经被转移到设计更好的网络架构以用于学习表示。

Figure 1. Left: A block of ResNet [14]. Right: A block of ResNeXt with cardinality(基数) = 32, with roughly the same complexity. A layer is shown as (# in channels, fifilter size, # out channels).

随着超参数(宽度2、裁剪尺寸、大步等)的不断增加,设计体系结构变得越来越困难,特别是在有许多层的情况下。vgg-net[36]展示了一种简单而有效的构造非常深的网络的策略:堆叠相同形状的积木。这种策略是由相同拓扑的堆栈模块的renet[14]继承的。这个简单的规则减少了超参数的自由选择,深度作为神经网络的一个基本维度被公开。此外,我们认为这个规则的简单性可以降低超参数适应特定数据集的风险。vggnet和resnet的鲁棒性已被各种视觉识别任务[7、10、9、28、31、14]和涉及语音[42,30]和语言[4,41,20]的非视觉任务所证实。 

与vgg网不同的是,初始模型家族[38,17,39,37]已经证明,精心设计的拓扑能够以较低的理论复杂度获得令人信服的精确性。初始模型具有演化时间[38,39],但它是一种重要的公共属性,是一种拆分-转换-合并策略。在初始模块中,输入被分成几个低维嵌入(1×1卷积),由一组专用滤波器(3×3,5×5等)转换,并通过级联合并。结果表明,该体系结构的解空间是在高维嵌入上工作的单个大层(例如5×5)解空间的严格子空间,初始模的分裂变换合并行为可望接近大层和密集层的表示能力,但计算复杂度要低得多。

尽管精度很高,但实现初始MOD-ELS的同时还伴随着一系列复杂的因素-过滤器的数量和大小是为每个单独的转换量身定做的,并且模块是逐步定制的。尽管这些组件的仔细组合产生了优秀的神经网络配方,但通常还不清楚如何使初始架构适应新的数据集/任务,特别是当需要设计许多因素和超参数时。

本文提出了一种简单的体系结构,它采用vgg/resnet的重复层策略,同时以一种简单、可扩展的方式开发了分裂变换-合并策略。我们网络中的一个模块执行一组转换,每个转换在一个低维嵌入上,其输出通过求和进行聚合。我们追求这个想法的简单实现-要聚合的转换都是相同的拓扑(例如,图)。1(右)。这种设计允许我们扩展到没有专门设计的大量转换。

有趣的是,在这种简化的情况下,我们证明了我们的模型有另外两个等价的形式(图)。3)。图中的重新表述。3(B)似乎类似于启动-RESNET模块[37],因为它连接多条路径;但我们的模块与所有现有的初始模块不同,因为我们所有的路径都具有相同的拓扑结构,因此路径数可以很容易地作为要研究的因素而被隔离。在一个更简洁的重新表述中,我们的模块可以被Krizhevsky等人的分组变换[24]重新塑造(图24)。3(C),不过,这是作为一项工程折衷办法制定的。

我们经验性地证明了我们的聚合转换优于原始的RESNET模块,即使在保持计算复杂性和模型大小的限制条件下,例如图。1(右)被设计成保持图的触发器复杂度和参数。1(左)。我们强调,虽然通过增加容量(更深或更广)来提高精确度相对容易,但在文献中很少有在保持(或降低)复杂性的同时提高准确性的方法。 

我们的方法表明,基数(变换集的大小)是除宽度和深度外,具有中心重要性的一种具体的、可测量的矩阵。实验表明,增大基数是一种比更深或更宽更有效的获取优势的方法,尤其是当深度和宽度开始给现有模型带来递减的回报时。 

我们的神经网络命名为resnext(建议下一个维度),优于Resnet-101/152[14],Resnet-200[15],开始-V3[39],以及ImaGenet分类数据集的起始-RENET-V2[37]。特别地,A101层resnext能够实现比Resnet-200[15]更好的精度,但是仅具有50%的复杂性。而且,resnext的设计比所有的Exception模型中的设计要简单得多。下一步是我们对ILSVRC2016分类任务的子任务的基础,在该任务中,我们获得了第二名。本文还对一个较大的ImaGenet-5K集和Coco对象检测数据集[27]进行了进一步的评价,显示出了比其Resnet对应的更准确的精度。我们希望resnext也能推广到其他视觉(和非视觉)恢复任务。

2.相关工作 

多分支卷积网络imeptionmodel[38,17,39,37]是成功的多分支体系结构,每个分支都被仔细地定制。resnet[14]可以被认为是两个分支网络,其中一个分支是标识映射。深层神经决策林[22]是具有学习分裂函数的树型多分支网络。 

分组卷积分组卷积的使用可以追溯到alexnet论文[24],如果不是更早的话。Krizhevsky等人给出的激活。[24]用于在两个GPU上分发该模型。分组卷积由Caffe[19]、TORCH[3]和其他库支持,主要是为了实现Alexnet的兼容性。据我们所知,几乎没有证据表明利用分组卷积来提高精度。分组卷积的一个特例是信道方向卷积,其中群数等于通道数。通道-智慧解是[35]中可分卷积的一部分。 

压缩卷积网络。分解(在空间[6,18]和/或信道[6,21,16]水平)是一种广泛采用的技术,以减少深康体网络的冗余并加速/压缩它们。IoanNou等[16]提出了一种用于计算计算的“根根”网络,根中的分支通过分组卷积实现。这些方法[6,18,21,16]显示出精度较低,模型尺寸较小的优雅折衷。我们的方法不是Compres-SiON,而是一种经验显示更强的代表力的架构。

Ensembling.我在说什么?平均一组独立训练的网络是提高准确度的有效解决方案[24],广泛用于识别竞赛[33]。Veit等人[40]将单个resnet解释为较浅网络的集合,这是因为resnet的附加行为[15]。我们的方法利用添加来聚集一组转换。但我们认为我们的方法是不准确的,因为要聚合的成员都是联合训练的,而不是独立的。 

3、方法

3.1.模板 

我们采用了一个高度模块化的设计跟随vgg/resnet。我们的网络由一堆剩余的块组成。这些块具有相同的拓扑结构,并受vgg/resnet启发的两个简单规则的约束:(I)相同的超参数(宽度和过滤器大小);(Ii)如果生成相同大小的空间地图,则每次当空间地图被2的发件人向下采样时,块的宽度乘以2的倍数。第二条规则确保计算的com-Plexity(浮点运算)在flops(浮点操作)方面是共享的。 

表1。(左)Resnet-50。(右)RENEXT-50采用32或4Dtemplate(使用图2中的重新配制)。3(c))。括号内的是残差块的形状,括号外是一个阶段上的堆叠块数。“C=32”建议将分组卷积[24]与32个组进行分组。参数和触发器的数目在这两个模型之间是相似的。

使用这两个规则,我们只需要设计一个模板模块,网络中的所有模块都可以相应地确定。因此,这两个规则极大地缩小了设计空间,并使我们能够专注于几个关键因素。这些规则建立的网络见表1。 

3.2.重访单纯性神经元

人工神经网络中最简单的神经元每一形式的内积(加权和),即由完全连通层和卷积层完成的Eleman变换。内部产品可以被认为是一种聚合转换的形式:

其中x=[x1,x2,…,xd]是神经元的d通道输入向量,wi是第一通道的滤波器权重。这种操作(通常包括一些输出非线性)被称为“神经元”。见图。2. 

3.3.聚合变换

考虑到上述简单神经元的分析,我们需要考虑用更通用的函数来替换基本转换(wixi),这本身也可以是一种网络。与“网络中的网络”[26]相比,我们发现我们的“神经元网络”沿着一个新的维度扩展。正式地,我们将聚合转换呈现为: 

其中ti(X)可以是任意函数。类似于单个神经元,ti应该将x投影到一个(可选的低维)嵌入中,然后将其转换。

在eqn.(2)中,c是要聚合的转换集的大小。我们称c为基数[2]。(2)c在eqn(1)中处于类似d的位置,但c不一定等于d,并且可以是任意数。宽度维数与简单变换数(内积)有关,但我们认为基数的维数控制着更复杂的变换数。实验表明,基数是一个基本的维度,可以比宽度和深度维度更有效。

本文考虑了一种简单的变换函数设计方法:所有TI的拓扑都是相同的,这就扩展了重复相同形状层的vgg式策略,这有助于分离几个因子,并扩展到任意多个变换。如图所示,将个体转换为瓶颈型建筑[14]。1(右)。在这种情况下,每个ti中的前1×1层产生低维嵌入。

eqn.(2)中的聚集变换作为剩余函数[14](图14)。(右1)

与起始的关系-RESNET。一些张量操作表明,图中的模块.1(右)(亦如图1所示)。3(A)等于图3(A)。3(B).33(B)似乎类似于起始-RESNET[37]块,因为它涉及分支和连接在剩余功能。但是与所有的初始或初始-RESNET模块不同,我们在多个路径之间共享相同的拓扑结构。我们的模块需要最少的额外努力来设计每条路径。

与分组卷积的关系。使用分组对流图[24]4的表示法,上述模块变得更加简洁。3(C)。所有低维嵌入(前1×1层)都可以由一个单一的、更宽的层(例如,图3(C)中的1×1,128-d)代替。当分组卷积层将其输入信道划分为组时,分裂本质上是由分组卷积层完成的。图中的分组卷积层。3(C)每组输入输出通道为四维的32组卷积.分组卷积层将它们串联为该层的输出。图中的块。3(C)看起来像图中原来的瓶颈残差块。1(左),但图1除外。3(C)是一个较宽但连接稀疏的模块

图4.(左):聚合深度=2.(右)的转换:一个等效的块,稍微宽一些。

我们注意到,只有当块有深度≥3时,才会产生非平凡拓扑。如果块的深度=2(例如,[14]中的基本块),则重列会导致小范围的稠密模。见图中的插图。4. 

讨论。我们注意到,虽然我们提出的重新配方,显示串联(图)。3(B)或分组卷积(图3(B)。(3)如果变换ti是任意形式的,并且是异源的,那么我们选择使用同质形式,因为它们是简单的和可扩展的。(3)如果变换ti是任意形式的,并且是异源的,则这类形式并不总是适用于eqn的一般形式。在这种简化的情况下,分组卷积以图的形式出现。3(C)有助于放松实施。 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值