深度神经网络的聚集残差变换

最新推荐文章于 2022-08-20 16:48:10 发布

Alphapeople

最新推荐文章于 2022-08-20 16:48:10 发布

阅读量909

点赞数

分类专栏：深度学习文章标签： ResNext

深度学习专栏收录该内容

122 篇文章 4 订阅

订阅专栏

摘要

提出了一种简单、高度模块化的图像分类网络体系结构。我们的网络是通过重复一个积木块来构造的，它聚合了一组具有相同拓扑的转换。我们的简单设计结果是一个同质的，多分支的架构，只有几个超参数可以设置。这种策略揭示了一个新的维度，我们称之为“基数”(转换集的大小)，作为深度和宽度维度之外的一个基本因素。在ImageNet-1k数据集上，我们经验表明，即使在保持复杂性的限制条件下，增大基数也能提高分类精度。此外，当我们增加能力时，增加基数比深入或扩大更有效。我们的模型，命名为resext，是我们进入ILSVRC 2016分类任务的基础，在这个任务中我们获得了第二名。我们进一步研究了ImageNet-5k集和coco检测集上的研究结果，也显示了比RESNET更好的结果。代码和模型在第1行上是公开的。

1、引言

对视觉识别的研究正在经历从“特征工程”到“网络工程”的转换[25,24,44,34,36,38,14]。与传统的手工设计的特征(例如SIFT[29]和HOG[5])相比，通过神经网络从大规模数据[33]中学习的特征在训练期间将最少的人的参与最小化，并且可以被传送到各种识别任务[7，10，28]。然而，人类的努力已经被转移到设计更好的网络架构以用于学习表示。

Figure 1. Left: A block of ResNet [14]. Right: A block of ResNeXt with cardinality（基数） = 32, with roughly the same complexity. A layer is shown as (# in channels, fifilter size, # out channels).

随着超参数(宽度2、裁剪尺寸、大步等)的不断增加，设计体系结构变得越来越困难，特别是在有许多层的情况下。vgg-net[36]展示了一种简单而有效的构造非常深的网络的策略：堆叠相同形状的积木。这种策略是由相同拓扑的堆栈模块的renet[14]继承的。这个简单的规则减少了超参数的自由选择，深度作为神经网络的一个基本维度被公开。此外，我们认为这个规则的简单性可以降低超参数适应特定数据集的风险。vggnet和resnet的鲁棒性已被各种视觉识别任务[7、10、9、28、31、14]和涉及语音[42，30]和语言[4，41，20]的非视觉任务所证实。

与vgg网不同的是，初始模型家族[38，17，39，37]已经证明，精心设计的拓扑能够以较低的理论复杂度获得令人信服的精确性。初始模型具有演化时间[38，39]，但它是一种重要的公共属性，是一种拆分-转换-合并策略。在初始模块中，输入被分成几个低维嵌入(1×1卷积)，由一组专用滤波器(3×3，5×5等)转换，并通过级联合并。结果表明，该体系结构的解空间是在高维嵌入上工作的单个大层(例如5×5)解空间的严格子空间，初始模的分裂变换合并行为可望接近大层和密集层的表示能力，但计算复杂度要低得多。

尽管精度很高，但实现初始MOD-ELS的同时还伴随着一系列复杂的因素-过滤器的数量和大小是为每个单独的转换量身定做的，并且模块是逐步定制的。尽管这些组件的仔细组合产生了优秀的神经网络配方，但通常还不清楚如何使初始架构适应新的数据集/任务，特别是当需要设计许多因素和超参数时。

本文提出了一种简单的体系结构，它采用vgg/resnet的重复层策略，同时以一种简单、可扩展的方式开发了分裂变换-合并策略。我们网络中的一个模块执行一组转换，每个转换在一个低维嵌入上，其输出通过求和进行聚合。我们追求这个想法的简单实现-要聚合的转换都是相同的拓扑(例如，图)。1(右)。这种设计允许我们扩展到没有专门设计的大量转换。

有趣的是，在这种简化的情况下，我们证明了我们的模型有另外两个等价的形式(图)。3)。图中的重新表述。3(B)似乎类似于启动-RESNET模块[37]，因为它连接多条路径；但我们的模块与所有现有的初始模块不同，因为我们所有的路径都具有相同的拓扑结构，因此路径数可以很容易地作为要研究的因素而被隔离。在一个更简洁的重新表述中，我们的模块可以被Krizhevsky等人的分组变换[24]重新塑造(图24)。3(C)，不过，这是作为一项工程折衷办法制定的。

我们经验性地证明了我们的聚合转换优于原始的RESNET模块，即使在保持计算复杂性和模型大小的限制条件下，例如图。1(右)被设计成保持图的触发器复杂度和参数。1(左)。我们强调，虽然通过增加容量(更深或更广)来提高精确度相对容易，但在文献中很少有在保持(或降低)复杂性的同时提高准确性的方法。

我们的方法表明，基数(变换集的大小)是除宽度和深度外，具有中心重要性的一种具体的、可测量的矩阵。实验表明，增大基数是一种比更深或更宽更有效的获取优势的方法，尤其是当深度和宽度开始给现有模型带来递减的回报时。

我们的神经网络命名为resnext（建议下一个维度），优于Resnet-101/152[14]，Resnet-200[15]，开始-V3[39]，以及ImaGenet分类数据集的起始-RENET-V2[37]。特别地，A101层resnext能够实现比Resnet-200[15]更好的精度，但是仅具有50％的复杂性。而且，resnext的设计比所有的Exception模型中的设计要简单得多。下一步是我们对ILSVRC2016分类任务的子任务的基础，在该任务中，我们获得了第二名。本文还对一个较大的ImaGenet-5K集和Coco对象检测数据集[27]进行了进一步的评价，显示出了比其Resnet对应的更准确的精度。我们希望resnext也能推广到其他视觉（和非视觉）恢复任务。

2.相关工作

多分支卷积网络imeptionmodel[38，17，39，37]是成功的多分支体系结构，每个分支都被仔细地定制。resnet[14]可以被认为是两个分支网络，其中一个分支是标识映射。深层神经决策林[22]是具有学习分裂函数的树型多分支网络。

分组卷积分组卷积的使用可以追溯到alexnet论文[24]，如果不是更早的话。Krizhevsky等人给出的激活。[24]用于在两个GPU上分发该模型。分组卷积由Caffe[19]、TORCH[3]和其他库支持，主要是为了实现Alexnet的兼容性。据我们所知，几乎没有证据表明利用分组卷积来提高精度。分组卷积的一个特例是信道方向卷积，其中群数等于通道数。通道-智慧解是[35]中可分卷积的一部分。

压缩卷积网络。分解(在空间[6,18]和/或信道[6,21,16]水平)是一种广泛采用的技术,以减少深康体网络的冗余并加速/压缩它们。IoanNou等[16]提出了一种用于计算计算的“根根”网络，根中的分支通过分组卷积实现。这些方法[6，18，21，16]显示出精度较低，模型尺寸较小的优雅折衷。我们的方法不是Compres-SiON，而是一种经验显示更强的代表力的架构。

Ensembling.我在说什么?平均一组独立训练的网络是提高准确度的有效解决方案[24]，广泛用于识别竞赛[33]。Veit等人[40]将单个resnet解释为较浅网络的集合，这是因为resnet的附加行为[15]。我们的方法利用添加来聚集一组转换。但我们认为我们的方法是不准确的，因为要聚合的成员都是联合训练的，而不是独立的。

3、方法

3.1.模板

我们采用了一个高度模块化的设计跟随vgg/resnet。我们的网络由一堆剩余的块组成。这些块具有相同的拓扑结构，并受vgg/resnet启发的两个简单规则的约束：(I)相同的超参数(宽度和过滤器大小)；(Ii)如果生成相同大小的空间地图，则每次当空间地图被2的发件人向下采样时，块的宽度乘以2的倍数。第二条规则确保计算的com-Plexity(浮点运算)在flops(浮点操作)方面是共享的。

表1。（左）Resnet-50。(右)RENEXT-50采用32或4Dtemplate(使用图2中的重新配制)。3(c))。括号内的是残差块的形状，括号外是一个阶段上的堆叠块数。“C=32”建议将分组卷积[24]与32个组进行分组。参数和触发器的数目在这两个模型之间是相似的。

使用这两个规则，我们只需要设计一个模板模块，网络中的所有模块都可以相应地确定。因此，这两个规则极大地缩小了设计空间，并使我们能够专注于几个关键因素。这些规则建立的网络见表1。

3.2.重访单纯性神经元

人工神经网络中最简单的神经元每一形式的内积(加权和)，即由完全连通层和卷积层完成的Eleman变换。内部产品可以被认为是一种聚合转换的形式：

其中x=[x1，x2，…，xd]是神经元的d通道输入向量，wi是第一通道的滤波器权重。这种操作(通常包括一些输出非线性)被称为“神经元”。见图。2.

3.3.聚合变换

考虑到上述简单神经元的分析，我们需要考虑用更通用的函数来替换基本转换（wixi），这本身也可以是一种网络。与“网络中的网络”[26]相比，我们发现我们的“神经元网络”沿着一个新的维度扩展。正式地，我们将聚合转换呈现为：

其中ti(X)可以是任意函数。类似于单个神经元，ti应该将x投影到一个(可选的低维)嵌入中，然后将其转换。

在eqn.(2)中，c是要聚合的转换集的大小。我们称c为基数[2]。(2)c在eqn(1)中处于类似d的位置，但c不一定等于d，并且可以是任意数。宽度维数与简单变换数(内积)有关，但我们认为基数的维数控制着更复杂的变换数。实验表明，基数是一个基本的维度，可以比宽度和深度维度更有效。

本文考虑了一种简单的变换函数设计方法：所有TI的拓扑都是相同的，这就扩展了重复相同形状层的vgg式策略，这有助于分离几个因子，并扩展到任意多个变换。如图所示，将个体转换为瓶颈型建筑[14]。1(右)。在这种情况下，每个ti中的前1×1层产生低维嵌入。

eqn.(2)中的聚集变换作为剩余函数[14](图14)。(右1)

与起始的关系-RESNET。一些张量操作表明，图中的模块.1(右)(亦如图1所示)。3(A)等于图3(A)。3(B).33(B)似乎类似于起始-RESNET[37]块，因为它涉及分支和连接在剩余功能。但是与所有的初始或初始-RESNET模块不同，我们在多个路径之间共享相同的拓扑结构。我们的模块需要最少的额外努力来设计每条路径。

与分组卷积的关系。使用分组对流图[24]4的表示法，上述模块变得更加简洁。3(C)。所有低维嵌入(前1×1层)都可以由一个单一的、更宽的层(例如，图3(C)中的1×1，128-d)代替。当分组卷积层将其输入信道划分为组时，分裂本质上是由分组卷积层完成的。图中的分组卷积层。3(C)每组输入输出通道为四维的32组卷积.分组卷积层将它们串联为该层的输出。图中的块。3(C)看起来像图中原来的瓶颈残差块。1(左)，但图1除外。3(C)是一个较宽但连接稀疏的模块

图4.(左)：聚合深度=2.(右)的转换：一个等效的块，稍微宽一些。

我们注意到，只有当块有深度≥3时，才会产生非平凡拓扑。如果块的深度=2(例如，[14]中的基本块)，则重列会导致小范围的稠密模。见图中的插图。4.

讨论。我们注意到，虽然我们提出的重新配方，显示串联(图)。3(B)或分组卷积(图3(B)。(3)如果变换ti是任意形式的，并且是异源的，那么我们选择使用同质形式，因为它们是简单的和可扩展的。(3)如果变换ti是任意形式的，并且是异源的，则这类形式并不总是适用于eqn的一般形式。在这种简化的情况下，分组卷积以图的形式出现。3(C)有助于放松实施。

Alphapeople

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度神经网络的聚集残差变换

摘要提出了一种简单、高度模块化的图像分类网络体系结构。我们的网络是通过重复一个积木块来构造的，它聚合了一组具有相同拓扑的转换。我们的简单设计结果是一个同质的，多分支的架构，只有几个超参数可以设置。这种策略揭示了一个新的维度，我们称之为“基数”(转换集的大小)，作为深度和宽度维度之外的一个基本因素。在ImageNet-1k数据集上，我们经验表明，即使在保持复杂性的限制条件下，增大基数也能提高分类...
复制链接

扫一扫

专栏目录