-
大体综述
a. 在传统神经网络的深度和宽度上,增加出一个新的维度,称为“cardinality”,原文解释为“the size of the set of transformations“,实际上就是每层分成的组数。
b. 网络主体看上去非常像ResNet,思路上借鉴了InceptionNet的 “split-transform-merge ”和VGG的将相同大小的卷积层堆叠的思路。
c. 文章核心提出“increasing cardinality is a more effective way of gaining accuracy than going deeper or wider",也就是他们增加的这个维度非常厉害,比深度和广度都重要,后续的实验证明了这句话。
d. 最后在各个数据集的测试结果,表明了正确率和速度上优于传统的ResNet。 -
网络结构和核心部分
a. 首先我们来看一下普通的ResNet和此文中的结构对比:
-
问题就来了,从表面上看,通道数增加了两倍,为什么参数却完全没有增加很多呢。我们以第一幅图的结构来举个栗子:
a. 普通的参数是这样的:2566411+646433+6425611 = 69632
b. 新结构是这样的:(256114+4334+411256)*32 = 70144 -
那么为什么这样进行分割也能work呢,作者以全连接层为例:
我们对这个形式进行一个扩展:
那么将卷积看做一个函数代入,就得到了本文模块的结构。 -
在设计各个模块时,遵循由VGG/ResNet启示的规则:
a. 对于产生相同大小的特征图的模块,使用完全相同的超参数。
b. 每次降采样时,网络的广度翻倍,这样保证了对于每个模块的计算复杂度相近。
所以我们只需要简单的设计出一个模板模块,其他层的结构也就能确定下来了。 -
和相关模型的区别:
a. Inception:本文模型多个分支都采用了完全相同的拓扑结构,减少了设计每条支路的困难。
b. Grouped Convolutions:这个实际上时AlexNet训练时用的多Gpu训练的方法。经过实验,下图展现的三个结构实际是完全一样的。最后的实现采用的是第三种结构,因为他实现的更加的简洁且快速。
-
模型性能
a. 显然,同样的深度和复杂度下,ResNeXt有者更高的正确率,而且ResNeXt-101就达到了超越ResNext-200的性能。