为什么MobileNet及其变体（比如ShuffleNet）会怎么快呢？

最新推荐文章于 2022-06-22 10:05:17 发布

ronghuaiyang

最新推荐文章于 2022-06-22 10:05:17 发布

阅读量494

点赞数

本文链接：https://blog.csdn.net/u011984148/article/details/99440094

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Yusuke Uchida

编译：ronghuaiyang

导读

MobileNet的特点就是非常的快，而且精度损失很小，这里面的原因是什么呢，这篇文章给大家解密。

介绍

在本文中，我将概述在诸如MobileNet及其变体等高效的CNN模型中使用的构建块，并解释一下为什么它们为何如此高效。特别地，我直观的说明了关于空间和通道卷积是如何完成。

高效模型中的构建块

在解释特定的高效CNN模型之前，让我们先检查一下高效CNN模型中使用的构建块的计算成本，看看如何在空间和通道域中执行卷积。

640?wx_fmt=png

让HxW表示输出特征图的空间尺寸，N表示输入通道的数量，KxK表示卷积核的大小，M表示输出通道的数量，计算标准卷积的成本为HWNK²M。

很重要的一点是，和标准卷积的计算成本成正比的有(1)输出特征图的空间尺寸HxW、(2)卷积核的大小K²、(3)输入和输出通道的数量NxM。

在空间域和通道域同时进行卷积时，需要上述计算量。CNNs可以通过分解这个卷积来加速，如下面的图所示。

卷积

首先，我提供了一个直观的例子，关于标准卷积在空间和通道域是怎么做的，其计算成本HWNK²M。

我将输入和输出之间的线连接起来，以可视化输入和输出之间的依赖关系。行数大致分别表示卷积在空间域和通道域的计算成本。

640?wx_fmt=png

例如，conv3x3，最常用的卷积，可以可视化，如上图。我们可以看到输入和输出在空间域上是局部连接的，而在通道域上是全连接的。

640?wx_fmt=png

接下来，conv1x1，又叫做逐点卷积，或用于改变通道的数量，可视化如上图。这个卷积的计算量是HWNM，因为核的大小是1x1，与conv3x3相比，计算量减少了1/9。这个卷积用于在通道之间“混合”信息。

分组卷积

分组卷积是卷积的一种变体，其中对输入特征图的通道进行分组，并对每个分组的通道独立执行卷积。

让G表示数量的组，分组卷积的计算成本HWNK²M / G，计算量想不标准的卷积降低为1 / G。

640?wx_fmt=png

对conv3x3进行分组，G=2。上图我们可以看到，通道域中的连接数比标准卷积小，这表明计算量更小。

640?wx_fmt=png

上图的这种情况，conv3x3，分组G=3，连接变得更加稀疏。

640?wx_fmt=png

上图的这种情况，conv1x1，分组G=2，因此，conv1x1也可以分组。这种卷积在ShuffleNet中使用。。

640?wx_fmt=png

上图的这种情况，conv1x1，分组G=3

深度卷积

在深度卷积中，卷积是对每个输入通道独立执行的。它也可以定义为分组卷积的一种特殊情况，其中输入和输出通道的数量相同，G等于通道的数量。

640?wx_fmt=png

如上所示，深度卷积通去掉了在通道域上的卷积，显著降低了计算成本。

通道洗牌

通道洗牌是一种操作(层)，它改变了在ShuffleNet中使用的通道的顺序。这个操作是通过张量的变形和转置来实现的。

更精确地说，让GN ' (=N)表示输入通道的数量，首先将输入通道维数重新构造为(G, N ')，然后将(G, N ')转置为(N '， G)，最后将其压平为与输入相同的形状。这里G表示分组卷积的组数，在ShuffleNet中与通道洗牌层一起使用。

虽然通道洗牌的计算量不能根据multiply-add操作(MACs)的数量来定义，但是应该有一些开销。

640?wx_fmt=png

通道洗牌的情况下，G=2。不执行卷积，只是改变通道的顺序。

640?wx_fmt=png

通道洗牌的情况下，G=3。

高效模型

在下面的文章中，我将为高效CNN模型提供直观的说明，说明为什么它们是高效的，以及如何在空间和通道域进行卷积。

ResNet (Bottleneck Version)

ResNet中使用的带有bottleneck结构的残差单元是与其他模型进行进一步比较的良好起点。

640?wx_fmt=png

如上图所示，由conv1x1、conv3x3和conv1x1组成具有bottleneck 结构的残差单元。第一个conv1x1降低了输入通道的维数，降低了后续相对昂贵的conv3x3的计算成本。最后一个conv1x1恢复输出通道的维数。

ResNeXt

ResNeXt是一个高效的CNN模型，它可以看作是ResNet的一个特例，其中conv3x3被分组conv3x3所替代。通过使用有效的分组卷积,，conv1x1中的通道压缩率与ResNet相比变得温和，从而在相同的计算成本下提高了精度。

640?wx_fmt=png

MobileNet (可分离卷积)

MobileNet是由深度卷积和conv1x1(逐点卷积)组成的可分离卷积模块的堆叠。

640?wx_fmt=png

可分离卷积在空间和通道域中独立地执行卷积。这种分解的卷积显著降低了计算成本，从HWNK²M降到了HWNK²(depthwise)+ HWNM (conv1x1)，总共是HWN (K²+ M)。一般来说，M > > K²(例如K = 3 M≥32)，计算量大约是原来的1/8-1/9。

这里重要的一点是，计算量的瓶颈现在是conv1x1！

ShuffleNet

ShuffleNet的动机是，如上所述，conv1x1是可分离conv的瓶颈。虽然conv1x1已经是很高效的了，而且似乎没有改进的空间，但分组conv1x1可以用来减少计算量。

640?wx_fmt=png

上图演示了ShuffleNet的模块。这里的一个重要构建块是通道洗牌层，它以分组卷积的方式“洗牌”组间通道的顺序。在没有通道洗牌的情况下，分组卷积的输出永远不会利用组之间的信息，从而导致精度下降。

MobileNet-v2

MobileNet-v2采用了与ResNet的bottleneck结构类似的残差单元模块结构，修改后的残差单元将conv3x3替换为了深度卷积。

640?wx_fmt=png

从上面可以看出，与标准bottleneck架构相反，第一个conv1x1增加了通道维度，然后执行深度conv，最后一个conv1x1减少了通道维度。

640?wx_fmt=png

通过像上面那样重新排序构建块，并将其与MobileNet-v1(可分离conv)进行比较，我们可以看到这个架构是如何工作的(这种重新排序不会改变整个模型架构，因为MobileNet-v2是这个模块的堆叠)。

也就是说，上面的模块是可分离conv的一个改进版本，其中可分离conv中的单个conv1x1被分解成两个conv1x1。T表示通道尺寸的膨胀系数，计算两个conv1x1的成本是2HWN²/T，而在可分离卷积中的conv1x1的计算量是HWN²。在论文中，使用T = 6，将conv1x1的计算成本降低了3倍(一般为T/2)。

FD-MobileNet

最后，介绍一下快速下采样MobileNet (FD-MobileNet)。在该模型中，与MobileNet相比，下采样是在较早的层中进行的。这个简单的技巧可以减少总计算成本。其原因在于传统的下采样策略和可分离卷积的计算成本。

从VGGNet开始，许多模型采用相同的下采样策略：执行下采样，然后将后续层的通道数加倍。标准卷积的计算成本在采样后不会改变，因为它被定义为HWNK²M。而对于可分离卷积，下采样后计算量变小，从HWN(K²+M)减少为H/2 W/2 2N(K²+2M)= HWN (K²/2+M)。当M不是特别大的时候这是相对可观的(在早期的层中)。

我用下面的速查表来结束这篇文章，谢谢：P

640?wx_fmt=png

— END—

英文原文：https://medium.com/@yu4u/why-mobilenet-and-its-variants-e-g-shufflenet-are-fast-1c7048b9618d

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

喜欢的话，请给我个好看吧！

ronghuaiyang

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
为什么MobileNet及其变体（比如ShuffleNet）会怎么快呢？

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：Yusuke Uchida编译：ronghuaiyang导读MobileNet的特点就是非常的快，而且精度...
复制链接

扫一扫