论文标题:Aggregated Residual Transformations for Deep Neural Networks
论文链接:https://arxiv.org/abs/1611.05431
Abstract
通过重复集合了一组具有相同拓扑结构变换的building block来构建网络。
新的维度:cardinality
1.Introduction
visual recognition: "feature engineering" (SIFT、HOG) → “network engineering” (neural networks)
hunman effort: design features → design network architectures
VGG/ResNet: stacking building block of the same shape
- 减少超参的自由选择
- 可能减少超参与具体数据集过分适应的风险
Inception:split-transform-merge (concatenation)
- 准确性高,理论复杂度低
- 用非常低的计算复杂度,达到接近大且密的网络的表达能力
- 不容易适应新的数据集/任务(需要专门定制 每个独立的变换中的filter个数和尺寸,以及各个stage的module)
ResNeXt: repeating layers [VGG/ResNet] + split-transform-merge [Inception]
两个其它等价形式:
ResNeXt | Inception | |
all paths share the same topology | √ | × |
considerably simpler designs | √ | × |
通过增加网络 capacity(更深或更宽)来提高精度相对容易,在维持(减少)复杂度的情况下提高精度非常rare。
increasing cardinality 比 going deeper or wider在提高精度方面更有效,尤其是当深度和宽度开始使现有模型的收益递减时。
ReNeXt:suggesting the next dimension
2.Related Work
多分支卷积网络
Inception: 多分支
ResNets: 两分支
Deep neural decision forests:tree-patterned 多分支
Grouped convolutions
AlexNet: 将模型分布在两个GPU上
channel-wise convolutions separable convolutions
压缩卷积网络
减少冗余、加速/压缩
精度 折中 低的复杂度和小的模型尺度
Ensembling
对一系列独立训练的网络进行平均,是提高识别精度的有效方法,这广泛应用于识别比赛中。
有人解释,单一的ResNet是较浅网络的集合,由于ResNet的 additive 行为。
ResNeXt利用addition来聚合一系列转换。但作者认为,将该方法视为集合是不确切的,因为要聚合的成员是联合训练的,而不是独立训练的。
3.Method
3.1 Template
高度模块化设计 following VGG/ResNets:
(i) 产生相同尺寸的spatial maps,blocks具有相同的超参 (width和filter sizes)
(ii) 当spatial maps两倍下采样时,blocks的width乘2 → 确保所有blocks的计算复杂度基本形同
这两条规则大大缩减了设计空间,让我们关注一些关键因素。
- FLOPs: floating-point operations per second