网络结构(1)ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

本文针对计算资源非常有限(10-150 MFLOPs)的移动设备,提出了一种极端高效计算的CNN网络结构ShuffleNet。为了在保证精度的情况下减少大量计算,使用了两种新的操作:group convolution和channel shuffle。在ImageNet分类和MS COCO检测上都体现出了极好的结果。如:ImageNet上top-1 error比MobileNet低7.8%(同40MFLOPs),而同精度时比AlexNet快13倍。

引言

现在的神经网络趋向于用大而深的网络来解决大型视觉任务,然而在实际需求上则是要在有限的计算负担下来获得最高的准确率,注重于移动平台。许多工作侧重于在基础网络结构上剪枝、压缩,而我们则希望设计出一种高效的基本结构

我们发现现在的模型如Xception和ResNetXt因为1x1的卷积而变得低效。我们使用pointwise group convolution来减少1x1的总面积。为了克服其副作用,我们设计了channel shuffle操作使信息可以在特征通道之间流动。基于以上两点设计的ShuffleNet,与以往的结构相比在相同的计算量下可以有更多的特征通道,从而编码更多信息提升性能。

相关工作

高效模型设计

GoogleLeNet在增加深度时有着比简单堆叠更低的复杂度;SqueezeNet保留精度同时减少了参数量和计算;ResNet使用了bottleneck结构来高效获得性能;SENet引入了一个用小消耗提升性能的结构单元。与我们类似,NASNet用强化学习与模型检索去探索高效模型设计,但是并没有在极小网络上进行测试。

组卷积

最早在AlexNet中提出、用于将模型分布到2块GPU上的方法,在ResNetXt中展现出了其高效性。Xception提出的Depthwise separable convolution

通道混洗

这种想法目前在模型设计中很少被提到,即使CNN库支持"random sparse convolution"层,相当于通道混洗后接一个组卷积。这种通道混洗有各种目的,并且很少被探讨过。

模型加速

实现

针对组卷积的通道混洗

一般卷积神经网络包含有相同结构的重复,在其中,Xception和ResNeXt引入了高效的深度可分享卷积(DWConv)或组卷积(GConv)。然而,我们发现这些设计都没有充分考虑1x1卷积(逐点总面积)大量的计算,比如在ResNeXt中只有3x3的卷积层用上了组卷积,使得1x1卷积的乘-加操作占了整个网络的93.4%。尤其是在小网络中,逐点卷积的计算量常常使通道数受到限制,从而损害精度。

一种解决这个问题的方案是通道间稀疏连接,如组卷积。然而,如果许多组卷积层叠在一起,就会产生副作用:某一通道的输出只从一小部分输入通道中得到。这使得通道间的信息流动被阻塞,表征能力变弱。

如果我们允许GConv去获取不同组的输入,那么输入输出就会被完全关联上。特别是对于前一层生成的特征图,我们可以先把这一层的每一组通道分小组,然后给下一层的每一组输送不同小组的通道。通道混洗即是实现的一种办法。若前一层有g组,我们先把前一层的输出划分为gxn个小组,然后将其转置、再压平变成下一层输入——即使下一层分组数不同这个方案也是可行的。同时,通道混洗是可微的,就可以在端到端训练中使用。
通道混洗

ShuffleNet 网络单元

由于通道混洗的优势,我们为小网络设计了一个崭新的ShuffleNet单元(参考ResNet的单元结构)。

  1. bottleneck处将3x3的总面积改为DWConv。
  2. 把1x1卷积改为GConv+通道混洗。
  3. 第二个1x1的目的是恢复通道数以匹配短路连接,为简单起见我们就不在这里加入通道混洗了,反正差不多。
  4. BN和非线性的使用同ResNet和ResNeXt相似,除了我们不再在DWConv后接ReLU。
  5. 对于带有步长的单元,我们做如下两处修改:(1)在短路上加一个3x3的Average Pooling(2)将相加改为通道相接,使通道数增加时的计算量减少。

比较三种结构的FLOPS,同样是 x × h × w x \times h \times w x×h×w,然后瓶颈处的通道数为 m m m,三种结构的FLOPS分别为:

  • ResNet: h w ( 2 c m + 9 m 2 ) hw(2cm+9m^2) hw(2cm+9m2)
  • ResNeXt: h w ( 2 c m + 9 m 2 / g ) hw(2cm+9m^2/g) hw(2cm+9m2/g)
  • ShuffleNet: h w ( 2 c m / g + 9 m ) hw(2cm/g+9m) hw(2cm/g+9m)

可以看出ShuffleNet计算量小。同样的计算资源下,ShuffleNet也就可以有更多的特征图,这对小网络的性能是十分重要的。

另外,DWConv仅仅在瓶颈特征图上实现,虽然理论上它有很低的复杂度,但是在低功耗移动设备上实现却不高效,可能是因为其糟糕的计算/存储访问比。所以我们只在瓶颈上使用这个技术。

网络结构

然后我们给出了一个完整的网络结构,是由一系列单元结构堆叠而成。三个stage,每个stage第一个unit步长为2,stage内超参数都一样,然后到下一个stage通道翻倍。我们将bottleneck的通道数设置为1/4。我们的结构只是一个参考,所以可能有更好的超参数。

分组数决定了连接的稀疏性。我们也发现在同样的FLOPS下,分组数越多的话就可以有更多的通道数,从而编码更多信息。

我们将网络标准化到一个期望的复杂度,对于表格中的网络命名为“ShuffleNet 1x”,而将滤波器数量翻s倍之后称为"ShuffleNet sx",计算量约有s2倍。

实验

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值