Paper Reading Note
URL: https://arxiv.org/pdf/1611.05431.pdf
TL;DR
提出了一种新的backbone结构ResNeXt用于图像分类任务,该结构具有同质性,具有多个相同拓扑结构的branch,这种结构也引入了除width, depth之外的一种新的维度cardinality(基数),实验证明,增加基数能够提高分类准确性,同时,随着模型容量增多,增加基数也比增加宽度和深度更加有效
Dataset/Algorithm/Model/Experiment Detail
ResNeXt的结构如图1右侧所示,其使用了VGG/ResNets中重复网络层的策略,同时希望在保证FLOPs和参数量不变的情况下,使用一种简单的方式来探索split-transform-merge策略。这种策略在Inception被广泛使用,但和所有Inception都不同的是,ResNeXt中所有的branch都具有相同的拓扑结构,因此,path的数量也可以单独作为一个被观察的因素。
图1左侧的ResNet参数量计算如下:
图1右侧的ResNeXt的参数量为:
在bottleneck参数
d
=
4
d=4
d=4 ,基数等于32的情况下,公式(4)也约为70k,因此二者参数量大致相同,对于ResNeXt中block,作者则给出了三种等价的实现,如图3©所示,ResNeXt可以认为是在ResNet中加入了group conv
以图3©为基础设计的template以及其参数量计算如表1所示
实验部分,如表3所示,一定范围内增大基数确实可以提升模型性能
表4则显示,在增加计算量时,增加基数获得的收益要超过增加深度和宽度
在分类任务上的结果如表5和表6所示
在COCO上的检测结果如表8所示,同样有提升
Thoughts
把Inception的思想融合进ResNet,但使用同质的拓扑结构,增加了基数这一参数,在计算量不变的前提下,提升了ResNet的性能