轻量级网络之ShuffleNet v1
前言
《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》
论文地址:https://arxiv.org/pdf/1707.01083.pdf
这是旷世(Face++)2018年发表在了CVPR上的文章,ShuffleNet_v1在MobileNet_v1后,MobileNet_v2前。在以往的ResNeXt以及MobileNet中,通过采用分组卷积或者DW卷积来减少参数量,但是只是对3x3的卷积进行分组,没有考虑对1x1的卷积分组,这使得1x1的参数占大头。但是1x1卷积如果也分组之后,那么各个通道之间就缺少了必要的信息交流。因此提出了下图中的结构,将会在其中把通道维度进行shuffle:
ShuffleNet Units
ShuffleNet的基本单元是在一个残差单元的基础上改进而成的。a是原来的结构,b c是改进后的结构:
计算量
计算量少,那么就可以用更大的图像。
网络结构
在stage2的第一个逐点卷积时,由于本身通道数就很少,所以不采用分组卷积。
实验对比
有group比没有group要好,但是过高的group数量也会起到负面作用,模型越小增加group所带来的提升越明显:
这里对比了Channel Shuffle所带来的收益,当group数量很多时,收益会更大:
在图像分类上,不同模型的横向对比:ShuffleNet +SE block效果比较好,参数增加也不多,但是速度会比ShuffleNet慢很多。ShuffleNet V1比MobileNet v1计算量更少,所以增大ShuffleNet可以使得,计算量稍小一点的情况下性能还更好一点点。这也是ShuffleNet相比于MobileNet的优点,计算量进一步减少。
目标检测中的表现:
Shuffle的具体实现
图源:https://zhuanlan.zhihu.com/p/51566209
pytorch代码:
def channel_shuffle(x, groups):
"""
Parameters
x: Input tensor of with `channels_last` data format
groups: int number of groups per channel
Returns
channel shuffled output tensor
Examples
Example for a 1D Array with 3 groups
>>> d = np.array([0,1,2,3,4,5,6,7,8])
>>> x = np.reshape(d, (3,3))
>>> x = np.transpose(x, [1,0])
>>> x = np.reshape(x, (9,))
'[0 1 2 3 4 5 6 7 8] --> [0 3 6 1 4 7 2 5 8]'
"""
height, width, in_channels = x.shape.as_list()[1:]
channels_per_group = in_channels // groups
x = torch.reshape(x, [-1, height, width, groups, channels_per_group])
x = x.permute(0, 1, 2, 4, 3) # transpose
x = torch.reshape(x, [-1, height, width, in_channels])
return x
小结
简而言之,就是将1x1的卷积核也进行分组卷积,并通过对通道的shuffle进行通道间的信息交流。此方法减少了参数量和计算量,因此可以将模型做得更大一些,使得精度也超过了MobileNet。