ResNext(2017)解读

论文链接
看网络的名字,可以推想出,它是ResNet(2016)的升级版。在网络结构上,它和ResNet相似,采用短路连接(shortcut connection).那么它有什么不同点呢?ResNet的F(x)和x是相加的,F(x)+x,而ResNext是合并的[x,F(x)]。先看下这两个网络的一个block的结构,如下图。直观的感觉,ResNext变宽了,而且卷积层的输入输出通道数不一样。
在这里插入图片描述
         图 1
网络结构设计的规则主要是:

  1. 沿用VGG/ResNet高度模块化的设计
    网络由一些残差块(residual block)堆叠而成,这些残差块有相同的拓扑结构,而且受VGG/ResNet启发:
    1)如果经过残差块得到的特征图尺寸相同,那么这些残差块有相同的超参数(卷积核的数量和尺寸相同)。
    2)每经过一次下采样,残差块的宽度*2(这使得不同残差块间的计算复杂度-FLOPs相同。).
  2. 每个模块采用Splitting-Transforming-Aggregating(划分-变换-整合)操作
    在这里插入图片描述
                 图2
    这三个步骤与单个神经元的计算过程相似。
  • Splitting: x x x——> x i x_{i} xi

  • Transforming:对 x i x_{i} xi做线性变换 w i x i w_{i}x_{i} wixi

  • Aggregating:对所有变形后的结果求和 Σ i = 1 D \Sigma_{i=1}^{D} Σi=1D
    在这里插入图片描述
    将这个想法应用到ResNext中就变成了:
    F ( x ) = Σ i = 1 c T i ( x ) F(x) = \Sigma_{i=1}^{c}T_{i}(x) F(x)=Σi=1cTi(x)

  • Splitting: 图一右侧的一个个分支

  • Transforming: T i ( x ) T_{i}(x) Ti(x).文中所有的 T i ( x ) T_{i}(x) Ti(x)有相同的拓扑结构

  • Aggregating:聚集所有变形后的结果 Σ i = 1 C \Sigma_{i=1}^{C} Σi=1C
    最终,一个残差块的作用可看成:
    F ( x ) = x + Σ i = 1 c T i ( x ) F(x) = x +\Sigma_{i=1}^{c}T_{i}(x) F(x)=x+Σi=1cTi(x)
    C是基数(cardinality),即分支数
    模型的每个分支都相同,figure3(a)可以等价成figure3(b)和figure3(c).
    在这里插入图片描述

  • 模型参数量的计算。以图1右侧的结构为例

  • C是基数-32,d是宽度-4
    在这里插入图片描述
    ResNet-50与ResNext-50对比
    在这里插入图片描述
    ResNext中的一些技巧:

  1. 随机裁剪为224*224
  2. Scale and aspect ratio augmentation
  3. 初始化方式(参考1),解释参考
  4. BN及ReLU的位置
    在这里插入图片描述

相对于ResNet中求和 x = F ( x ) + x x = F(x) + x x=F(x)+x,ResNext中变成了[x,F(x)],连接的方式.后者可以增加特征图的数量


  1. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification ↩︎

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值