ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices （翻译）

最新推荐文章于 2024-07-27 15:26:43 发布

黑子小明

最新推荐文章于 2024-07-27 15:26:43 发布

阅读量937

点赞数 1

分类专栏： CV AI 文章标签： CNN shuffleNet 目标检测

AI 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

ShuffleNet：一种用于移动设备的高效卷积神经网络

Xiangyu Zhang ∗ Xinyu Zhou ∗ Mengxiao Lin Jian Sun Megvii Inc (Face++) { zhangxiangyu,zxy,linmengxiao,sunjian } @megvii.com

摘要

我们介绍了一种计算效率极高的CNN体系结构，名为ShuffleNet，它专门为计算能力非常有限的移动设备（例如10-150 MFLOPs）设计。新的体系结构利用了两种新的操作，逐点组卷积和信道shuffle，在保持精度的同时大大降低了计算成本。ImageNet分类和MS COCO目标检测的实验表明，ShuffleNet优于其他结构，例如，在计算预算为40 MFLOPs的情况下，在ImageNet分类任务上，比最近的MobileNet[12]更低的top-1误差（绝对7.8%）。在基于ARM的移动设备上，ShuffleNet实现了∼ 13倍于AlexNet的实际加速比，同时保持可比精度。

1、引言

    构建更深更大的卷积神经网络（CNN）是解决主要视觉识别任务的主要趋势[21,9,33,5,28,24]。最精确的CNN通常有数百层和数千个通道[9,34,32,40]，因此需要数十亿次的运算。本报告考察了另一个极端：在十分有限的计算预算中，以数十或数百mFLOP的速度追求最佳精度，重点关注无人机、机器人和智能手机等常见移动平台。请注意，许多现有的工作[16、22、43、42、38、27]侧重于修剪、压缩或表示“基本”网络架构的低位。在这里，我们的目标是探索一种高效的基本架构，专门为我们所需的计算范围而设计。
    我们注意到，由于成本高昂的密集1×1卷积，最先进的基本架构（如Exception[3]和ResNeXt[40]）在非常小的网络中变得效率较低。我们建议使用逐点群卷积来降低1×1卷积的计算复杂度。
    为了克服群卷积带来的副作用，我们提出了一种新的通道shuffle操作来帮助信息在特征通道中流动。
    基于这两种技术，我们构建了一个高效的体系结构ShuffleNet。与[30,9,40]等流行结构相比，对于给定的计算复杂度预算，我们的ShuffleNet允许更多的特征映射通道，这有助于编码更多信息，对非常小的网络的性能尤为关键。
    我们在具有挑战性的ImageNet分类[4,29]和MS COCO目标检测[23]任务中评估了我们的模型。一系列受控实验表明了我们的设计原则的有效性，以及比其他结构更好的性能。与最先进的体系结构MobileNet[12]相比，ShuffleNet以显著的优势实现了卓越的性能，例如，在40 MFLOPs的水平上，ImageNet top-1错误的绝对值降低了7.8%。
    我们还研究了实际硬件上的加速，即基于ARM的现成计算核心。ShuffleNet模型实现∼ 比AlexNet[21]高13倍的实际加速比（理论加速比为18倍），同时保持相当的精度。

2.相关工作

    高效的模型设计在过去几年中，深度神经网络在计算机视觉任务中取得了成功【21、36、28】，其中模型设计发挥了重要作用。在嵌入式设备上运行高质量深层神经网络的需求不断增加，这鼓励了对高效模型设计的研究[8]。例如，与简单地叠加卷积层相比，谷歌网[33]以更低的复杂度增加了网络的深度。挤压网[14]在保持准确性的同时，显著减少了参数和计算量。
    ResNet[9,10]利用高效的瓶颈结构来实现令人印象深刻的性能。SENet[13]引入了一种架构单元，它可以在计算成本很低的情况下提高性能。与我们同时，最近的一项工作【46】采用强化学习和模型搜索来探索有效的模型设计。拟议的移动NASNet模型与我们的对应ShuffleNet模型的性能相当（对于ImageNet分类错误，564 MFLOPs为26.0%，524 MFLOPs为26.3%）。但是[46]不报告极小模型的结果（例如复杂度小于150 MFLOPs），也不评估移动设备上的实际推断时间。
    组卷积组卷积的概念首次在AlexNet【21】中引入，用于将模型分布在两个GPU上，在ResNeXt【40】中已经很好地证明了其有效性。Exception[3]中提出的深度可分离卷积推广了Inception级数[34,32]中可分离卷积的思想。
    最近，MobileNet[12]利用了深度可分离卷积，并在轻量级模型中获得了最先进的结果。我们的工作以一种新的形式推广了群卷积和深度可分卷积。
    据我们所知，尽管CNN库cuda convnet【20】支持“随机稀疏卷积”层，这相当于随机信道shuffle牌后接一个组卷积层，但信道shuffle操作的想法在之前的高效模型设计工作中很少提及。这种“随机shuffle”操作有不同的目的，后来很少被利用。最近，另一项并行工作[41]也采用了这种两级卷积的思想。然而，[41]并没有专门研究信道shuffle本身的有效性及其在微型模型设计中的使用。
    模型加速此方向旨在加速推理，同时保持预训练模型的准确性。
    修剪网络连接[6、7]或通道[38]可以在保持性能的同时减少预先训练的模型中的冗余连接。文献中提出了量化[31,27,39,45,44]和因式分解[22,16,18,37]，以减少计算中的冗余，从而加速推理。
    在不修改参数的情况下，通过FFT[25,35]和其他方法[2]实现的优化卷积算法在实践中减少了时间消耗。提取[11]将知识从大型模型转换为小型模型，这使得小型模型的训练更加容易。
avatar
图1。通道shuffle与两个堆叠的组卷积。GConv代表组卷积。a）具有相同组数的两个堆叠卷积层。每个输出通道仅与组内的输入通道相关。没有相声；b）当GConv2在GConv1之后从不同组获取数据时，输入和输出通道完全相关；c）与b）使用通道shuffle的等效实现。

3.方法

3.1. 用于群卷积的信道shuffle

    现代卷积神经网络[30,33,34,32,9,10]通常由具有相同结构的重复构建块组成。其中，最先进的网络，如Exception[3]和ResNeXt[40]将高效的深度可分离卷积或群卷积引入到构建块中，以在表示能力和计算成本之间达成良好的权衡。
    然而，我们注意到，这两种设计都没有充分考虑1×1卷积（在[12]中也称为点态卷积），这需要相当的复杂性。
    例如，在ResNeXt[40]中，只有3×3层配备了组卷积。因此，对于ResNeXt中的每个剩余单元，逐点卷积占据93.4%的乘法和（基数=32，如[40]中所建议的）。在小型网络中，昂贵的逐点卷积导致满足复杂度约束的通道数量有限，这可能会严重损害精度。
    为了解决这个问题，一个简单的解决方案是在1×1层上应用信道稀疏连接，例如组卷积。通过确保每个卷积只在相应的输入信道组上运行，组卷积显著降低了计算成本。然而，如果多组卷积叠加在一起，则有一个副作用：某个通道的输出仅来自一小部分输入通道。
    图1（a）示出了两个堆叠的组卷积层的情况。显然，某个群体的产出只与该群体内的投入有关。此属性会阻止通道组之间的信息流，并削弱表示。
    如果我们允许组卷积从不同的组获得输入数据（如图1（b）所示），输入和输出通道将完全相关。具体来说，对于从前一个组层生成的特征图，我们可以首先将每个组中的通道划分为几个子组，然后在下一个层中为每个组提供不同的子组。这可以通过信道shuffle操作高效且优雅地实现（图1（c））：假设一个卷积层具有g个组，其输出具有g×n个信道；我们首先将输出通道维度重塑为（g，n），进行转置，然后将其展平，作为下一层的输入。请注意，即使两个卷积的组数不同，该操作仍然有效。此外，信道shuffle也是可微的，这意味着它可以嵌入到网络结构中进行端到端的训练。
    通道shuffle操作使构建具有多个组卷积层的更强大的结构成为可能。在下一小节中，我们将介绍一种具有信道shuffle和组卷积的高效网络单元。
avatar
图2。shuffle单元。a）带深度卷积（DWConv）的瓶颈单元[9][3,12]；b）具有逐点群卷积（GConv）和通道混洗的ShuffleNet单元；c）步幅为2的ShuffleNet单位。

3.2. ShuffleNet单元

    利用信道shuffle操作，我们提出了一种专为小型网络设计的新型shuffle单元。我们从图2（a）中瓶颈单元[9]的设计原理开始。这是一个剩余的区块。在剩余分支中，对于3×3层，我们在瓶颈特征图上应用计算经济的3×3深度卷积[3]。然后，我们用逐点组卷积替换第一个1×1层，然后进行通道shuffle操作，以形成shuffle单元，如图2（b）所示。
    第二个逐点组卷积的目的是恢复通道维度以匹配快捷路径。
    为简单起见，我们不在第二个逐点层之后应用额外的通道shuffle操作，因为它会产生可比较的分数。批量归一化（BN）[15]和非线性的用法与[9，40]相似，只是我们在深度卷积后不使用ReLU，如[3]所示。
    对于ShuffleNet应用于stride的情况，我们只需做两个修改（参见图2（c））：（i）在快捷路径上添加3×3的平均池；（ii）用通道级联代替元素级加法，这样可以在几乎不增加额外计算成本的情况下轻松扩大通道维数。
    多亏了带有通道混洗的逐点组卷积，可以高效地计算混洗单元中的所有组件。与ResNet[9]（瓶颈设计）和ResNeXt[40]相比，在相同的设置下，我们的结构具有更少的复杂性。例如，给定输入大小c×h×W和瓶颈通道m，ResNet单元需要 avatar 触发器，ResNeXt有 avatar 触发器，而我们的ShuffleNet单元只需要 avatar 触发器，其中g表示卷积的组数。换句话说，给定计算预算，ShuffleNet可以使用更广泛的特征映射。我们发现这对于小型网络来说至关重要，因为小型网络通常没有足够的通道来处理信息。
    此外，在ShuffleNet中，深度卷积仅在瓶颈特征映射上执行。尽管深度卷积通常具有非常低的理论复杂度，但我们发现很难在低功耗移动设备上有效实现，这可能是因为与其他密集运算相比，计算/内存访问率更差。[3]中也提到了这种缺点，它有一个基于TensorFlow[1]的运行库。在ShuffleNet单元中，我们有意只在瓶颈上使用深度卷积，以尽可能避免开销。
avatar
表1。ShuffleNet架构。复杂度是用浮点乘法加法来计算的。请注意，对于阶段2，我们不在第一个逐点层上应用组卷积，因为输入通道的数量相对较少。
avatar
表2。分类错误与组数g（较小的组数代表更好的性能）

3.3. 网络架构

    基于ShuffleNet单元，我们在表1中展示了ShuffleNet的总体架构。所提出的网络主要由一组分为三个阶段的ShuffleNet单元组成。每个阶段中的第一个构建块应用时步幅为2。一级中的其他超参数保持不变，下一级的输出通道加倍。与[9]类似，我们将瓶颈通道的数量设置为每个ShuffleNet单元输出通道的1/4。我们的目的是提供一个尽可能简单的参考设计，尽管我们发现进一步的超参数调谐可能会产生更好的结果。
    在ShuffleNet单元中，组号g控制逐点卷积的连接稀疏性。表1探讨了不同的组数，我们调整了输出通道，以确保总体计算成本大致不变（∼ 140兆次）。显然，对于给定的复杂度约束，较大的组数会导致更多的输出通道（从而产生更多的卷积滤波器），这有助于编码更多的信息，尽管由于相应的输入通道有限，这也可能导致单个卷积滤波器的性能降低。在第4.1.1节中，我们将研究这个数字在不同计算约束下的影响。
    为了将网络定制为所需的复杂度，我们可以简单地对通道数应用比例因子。
    例如，我们将表1中的网络表示为“ShuffleNet 1×”，然后“ShuffleNet s×”意味着将ShuffleNet 1×中的过滤器数量缩放s倍，因此总体复杂度大约是ShuffleNet 1×”的S2倍。

4.实验

我们主要在ImageNet 2012分类数据集上评估我们的模型【29，4】。我们遵循[40]中使用的大多数训练设置和超参数，但有两个例外：（i）我们将权重衰减设置为4e-5，而不是1e-4，并使用线性衰减学习率策略（从0.5降低到0）；（ii）我们在数据预处理中使用了稍微不那么激进的尺度增强。[12]中也提到了类似的修改，因为这样的小网络通常会出现欠拟合，而不是过拟合。在批量大小设置为1024的4个GPU上，训练一个模型进行3×105次迭代需要1到2天的时间。为了进行基准测试，我们在ImageNet验证集上比较了单次裁剪top-1的性能，即从256×输入图像裁剪224×224中心视图，并评估分类精度。我们对所有模型使用完全相同的设置，以确保公平比较。
avatar
表3。ShuffleNet带/不带通道shuffle（较小的数字代表更好的性能）

4.1. 消融研究

ShuffleNet的核心思想在于逐点组卷积和通道混洗操作。在本小节中，我们分别对它们进行评估。

4.1.1逐点群卷积

    为了评估逐点群卷积的重要性，我们比较了相同复杂度的ShuffleNet模型，其群的数量从1到8不等。如果组数等于1，则不涉及逐点组卷积，然后ShuffleNet单元成为“类似异常的”[3]结构。为了更好地理解，我们还将网络的宽度扩展到3种不同的复杂性，并分别比较它们的分类性能。
    结果如表2所示。
    从结果中，我们可以看到，具有群卷积（g>1）的模型始终比没有逐点群卷积（g=1）的模型表现更好。
    较小的模特往往从群体中受益更多。例如，对于ShuffleNet 1×最佳条目（g=8）比对应条目好1.2%，而对于ShuffleNet 0.5×和0.25×，差距分别为3.5%和4.4%。请注意，对于给定的复杂性约束，组卷积允许更多的特征映射通道，因此我们假设性能增益来自更宽的特征映射，这有助于编码更多信息。此外，更小的网络包含更薄的特征图，这意味着它从放大的特征图中受益更多。
    表2还显示，对于某些模型（例如shufflenet 0.5×），当组数变得相对较大（例如g=8）时，分类分数饱和甚至下降。随着组数的增加（因此特征映射更宽），每个卷积滤波器的输入通道变得更少，这可能会损害表示能力。有趣的是，我们还注意到，对于较小的模型，例如ShuffleNet，0.25×更大的组数往往会始终获得更好的结果，这表明更宽的特征映射为较小的模型带来更多好处。

4.1.2通道混洗与非混洗

shuffle操作的目的是为多个组卷积层启用跨组信息流。表3比较了ShuffleNet结构（例如，组数设置为3或8）在有/无通道混洗的情况下的性能。评估是在三种不同的复杂程度下进行的。很明显，通道shuffle会持续提高不同设置的分类分数。
特别是，当组数相对较大（例如g=8）时，具有通道混洗的模型的性能显著优于对应的模型，这表明了跨组信息交换的重要性。

4.2. 与其他结构单元的比较

    VGG[30]、ResNet[9]、GoogleNet[33]、ResNeXt[40]和Exception[3]中最近领先的卷积单元在大型模型（例如：。≥ 1亿次），但没有充分探索低复杂度条件。在本节中，我们将考察各种构建块，并在相同的复杂性约束下与ShuffleNet进行比较。
    为了进行公平比较，我们使用了表1所示的整体网络架构。我们用其他结构替换阶段2-4中的ShuffleNet单元，然后调整通道数量以确保复杂性保持不变。我们探索的结构包括：•类似VGG。遵循VGG网络[30]的设计原则，我们使用两层3×3卷积作为基本构造块。与[30]不同的是，我们在每个卷积之后添加了一个批处理规范化层[15]，以简化端到端的训练。
    •ResNet。在我们的实验中，我们采用了“瓶颈”设计，这在[9]中被证明是更有效的。与[9]相同，瓶颈比率1也是1:4。
    •类似于例外。[3]中提出的原始结构涉及不同阶段的奇特设计或超参数，我们发现很难在小型模型上进行公平比较。相反，我们从ShuffleNet（也相当于g=1的ShuffleNet）中删除逐点组卷积和通道shuffle操作。
    导出的结构与[3]中的“深度可分离卷积”概念相同，这里称之为类例外结构。
    •下一步。我们使用[40]中建议的基数=16和瓶颈比率=1:2的设置。我们还探索了其他设置，例如瓶颈比率=1:4，并得到了类似的结果。
    我们使用完全相同的设置来训练这些模型。
    结果如表4所示。在不同的复杂性下，我们的ShuffleNet模型比大多数其他模型都有显著的优势。有趣的是，我们发现了特征映射通道和分类精度之间的经验关系。
    例如，在38 MFLOPs的复杂度下，VGG-like、ResNet、ResNeXt、Exception-like、ShuffleNet模型的第4阶段（见表1）的输出通道分别为50、192、192、288、576，这与精度的提高相一致。由于shufflenet的高效设计，对于给定的计算预算，我们可以使用更多的通道，因此通常会产生更好的性能。
    请注意，上述比较不包括GoogleNet或Inception系列[33,34,32]。我们发现在小型网络中生成这样的初始结构是不寻常的，因为初始模块的原始设计涉及太多的超参数。作为参考，第一个GoogleNet版本[33]有31.3%的top-1错误，代价是1.5gflops（见表6）。然而，更复杂的初始版本[34,32]更准确，涉及的复杂性显著增加。最近，Kim等人提出了一种轻量级网络结构，名为PVANET[19]，它采用了初始单元。我们重新实现的PVANET（输入大小为224×224）有29.7%的分类错误，计算复杂度为557 MFLOP，而我们的ShuffleNet 2x模型（g=3）有524 MFLOP，分类错误率为26.3%（见表6）。
avatar
表4。与各种结构相比，分类错误（%，较小的数字代表更好的性能）。我们没有在较小的网络上报告类似VGG的结构，因为准确度要差得多。
avatar
表5。ShuffleNet与MobileNet[12]关于ImageNet分类的比较

4.3. 与MobileNets和其他相比

    最近，Howard等人提出了MobileNet[12]，主要关注移动设备的高效网络架构。MobileNet采用了[3]中深度可分离卷积的思想，并在小型模型上实现了最先进的结果。
    表5比较了各种复杂程度下的分类分数。很明显，我们的ShuffleNet模型在所有复杂性方面都优于MobileNet。虽然我们的ShuffleNet网络是专门为小型模型（<150 MFLOPs）设计的，但我们发现它在更高的计算成本方面仍然优于MobileNet，例如，以500 MFLOPs的成本比MobileNet 1×高3.1%。对于较小的网络（∼ ShuffleNet超过MobileNet 7.8%。请注意，我们的ShuffleNet架构包含50层，而MobileNet只有28层。为了更好地理解，我们还尝试在26层架构上使用ShuffleNet，方法是在第2-4阶段移除一半的块（参见表5中的“ShuffleNet 0.5×shallow（g=3）”。结果表明，较浅的模型仍明显优于相应的MobileNet，这意味着ShuffleNet的有效性主要取决于其有效的结构，而不是深度。
    表6将我们的ShuffleNet与几个流行的型号进行了比较。结果表明，在精度相近的情况下，ShuffleNet比其他方法效率更高。例如，shufflenet 0.5×理论上比具有可比分类分数的AlexNet[21]快18倍。我们将在第4.5节中评估实际运行时间。
    还值得注意的是，简单的架构设计使舒夫网易于配备最新的先进技术，如[13,26]。例如，在[13]中，作者提出了挤压和激发（SE）块，可在大型ImageNet模型上获得最先进的结果。我们发现SE模块与主干ShuffleNet结合也会起作用，例如，将ShuffleNet的前1位误差提高了2倍至24.7%（如表5所示）。有趣的是，虽然理论复杂度的增加可以忽略不计，但我们发现带有SE模的ShuffleNet通常为25∼ 比移动设备上的“原始”ShuffleNet慢40%，这意味着实际的加速比评估对低成本架构设计至关重要。在第4.5节中，我们将进一步讨论。
avatar
表6。复杂性比较。*由BVLC实施(https://github.com/BVLC/caffe/tree/master/models/bvlc谷歌网）
avatar
表7。MS COCO上的目标检测结果（数字越大表示性能越好）。对于MobileNets，我们比较了两个结果：1）[12]报告的可可豆检测分数；2）我们重新实现的MobileNets的微调，其训练和微调设置与ShuffleNets完全相同。
avatar
表8。移动设备上的实际推断时间（较小的数字代表更好的性能）。该平台基于单个高通Snapdragon 820处理器。所有结果均采用单线程进行评估。

4.4. 泛化能力

为了评估迁移学习的泛化能力，我们在MS COCO对象检测任务上测试了我们的ShuffleNet模型【23】。我们采用更快的RCNN【28】作为检测框架，并使用公开发布的Caffe代码【28，17】进行训练，默认设置。与[12]类似，模型在COCO训练+val数据集上进行训练，不包括5000张minival图像，我们在minival集上进行测试。表7显示了两种输入分辨率下训练和评估结果的比较。将ShuffleNet 2×与复杂度可比的MobileNet（524对569 MFLOPs）进行比较，我们的ShuffleNet 2×在两种分辨率上都显著优于MobileNet；我们的ShuffleNet 1×在600×分辨率上也与MobileNet取得了相当的结果，但是∼ 4×复杂度降低。我们推测，这一显著的收益部分是由于ShuffleNet没有铃铛和哨子的简单建筑设计。

4.5. 实际加速比评估

    最后，我们在带有ARM平台的移动设备上评估了shufflenet模型的实际推理速度。
    虽然具有较大组号（例如g=4 org=8）的ShuffleNet通常具有更好的性能，但我们发现它在当前的实现中效率较低。根据经验，g=3通常在准确性和实际推理时间之间有一个适当的权衡。如表8所示，测试使用了三种输入分辨率。由于内存访问和其他开销，我们发现每减少4×理论复杂性通常会导致∼ 2.6×我们实施中的实际加速。
    然而，与AlexNet[21]相比，我们的ShuffleNet 0.5×模型仍然达到∼ 13×可比分类精度下的实际加速比（理论加速比为18×），比之前的AlexNet级模型或加速比方法（如[14、16、22、42、43、38]）快得多。

参考文献

[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467 , 2016. 4

[2] H. Bagherinezhad, M. Rastegari, and A. Farhadi. Lcnn: Lookup-based convolutional neural network. arXiv preprint arXiv:1611.06473 , 2016. 2

[3] F. Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357 , 2016. 1 , 2 , 3 , 4 , 5 , 6

[4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. feifei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on , pages 248–255. IEEE, 2009. 1 , 4

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition , pages 580–587, 2014. 1

[6] S. Han, H. Mao, and W. J. Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv preprint arXiv:1510.00149 , 2015. 2

[7] S. Han, J. Pool, J. Tran, and W. Dally. Learning both weights and connections for efficient neural network. In Advances in Neural Information Processing Systems , pages 1135–1143, 2015. 2

[8] K. He and J. Sun. Convolutional neural networks at constrained time cost. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 5353– 5360, 2015. 1

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition , pages 770–778, 2016. 1 , 2 , 3 , 4 , 5 , 6

[10] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In European Conference on computer Vision , pages 630–645. Springer, 2016. 1 , 2

[11] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531 , 2015. 2

[12] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 , 2017. 1 , 2 , 3 , 5 , 6 , 7

[13] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507 , 2017. 1 , 6 , 7

[14] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 0.5 mb model size. arXiv preprint arXiv:1602.07360 , 2016. 1 , 7 , 8

[15] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167 , 2015. 3 , 5

[16] M. Jaderberg, A. Vedaldi, and A. Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866 , 2014. 1 , 2 , 8

[17] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. girshick, S. Guadarrama, and T. Darrell. Caffe: convolutional architecture for fast feature embedding. In proceedings of the 22nd ACM international conference on multimedia , pages 675–678. ACM, 2014. 7

[18] J. Jin, A. Dundar, and E. Culurciello. Flattened convolutional neural networks for feedforward acceleration. arXiv preprint arXiv:1412.5474 , 2014. 2

[19] K.-H. Kim, S. Hong, B. Roh, Y. Cheon, and M. Park. Pvanet: Deep but lightweight neural networks for real-time object detection. arXiv preprint arXiv:1608.08021 , 2016. 6

[20] A. Krizhevsky. cuda-convnet: High-performance c++/cuda implementation of convolutional neural networks, 2012. 2

[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems , pages 1097–1105, 2012. 1 , 2 , 7 , 8

[22] V. Lebedev, Y. Ganin, M. Rakhuba, I. Oseledets, and V. Lempitsky. Speeding-up convolutional neural networks using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553 , 2014. 1 , 2 , 8

[23] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. ramanan, P. Dollár, and C. L. Zitnick. Microsoft coco: common objects in context. In European Conference on computer Vision , pages 740–755. Springer, 2014. 1 , 7

[24] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern recognition , pages 3431–3440, 2015. 1

[25] M. Mathieu, M. Henaff, and Y. LeCun. Fast training of convolutional networks through ffts. arXiv preprint arXiv:1312.5851 , 2013. 2

[26] P. Ramachandran, B. Zoph, and Q. V. Le. Swish: a self-gated activation function. arXiv preprint arXiv:1710.05941 , 2017. 7

[27] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. xnornet: Imagenet classification using binary convolutional neural networks. In European Conference on Computer Vision , pages 525–542. Springer, 2016. 1 , 2

[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems , pages 91–99, 2015. 1 , 7

[29] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision , 115(3):211–252, 2015. 1 , 4

[30] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 , 2014. 1 , 2 , 5 , 7

[31] D. Soudry, I. Hubara, and R. Meir. Expectation backpropagation: Parameter-free training of multilayer neural networks with continuous or discrete weights. In Advances in Neural Information Processing Systems , pages 963–971, 2014. 2

[32] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi. inceptionv4, inception-resnet and the impact of residual connections on learning. arXiv preprint arXiv:1602.07261 , 2016. 1 , 2 , 6

[33] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 1–9, 2015. 1 , 2 , 5 , 6 , 7

[34] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 2818–2826, 2016. 1 , 2 , 6

[35] N. Vasilache, J. Johnson, M. Mathieu, S. Chintala, S. piantino, and Y. LeCun. Fast convolutional nets with fbfft: A gpu performance evaluation. arXiv preprint arXiv:1412.7580 , 2014. 2

[36] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE Conference on Computer Vision and Pattern recognition , pages 3156–3164, 2015. 1

[37] M. Wang, B. Liu, and H. Foroosh. Design of efficient convolutional layers using single intra-channel convolution, topological subdivisioning and spatial ”bottleneck” structure. arXiv preprint arXiv:1608.04337 , 2016. 2

[38] W. Wen, C. Wu, Y. Wang, Y. Chen, and H. Li. Learning structured sparsity in deep neural networks. In Advances in Neural Information Processing Systems , pages 2074–2082, 2016. 1 , 2 , 8

[39] J. Wu, C. Leng, Y. Wang, Q. Hu, and J. Cheng. Quantized convolutional neural networks for mobile devices. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 4820–4828, 2016. 2

[40] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. arXiv preprint arXiv:1611.05431 , 2016. 1 , 2 , 3 , 4 , 5 , 6

[41] T. Zhang, G.-J. Qi, B. Xiao, and J. Wang. Interleaved group convolutions for deep neural networks. In International conference on Computer Vision , 2017. 2

[42] X. Zhang, J. Zou, K. He, and J. Sun. Accelerating very deep convolutional networks for classification and detection. IEEE transactions on pattern analysis and machine intelligence , 38(10):1943–1955, 2016. 1 , 8

[43] X. Zhang, J. Zou, X. Ming, K. He, and J. Sun. Efficient and accurate approximations of nonlinear convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 1984–1992, 2015. 1 , 8

[44] A. Zhou, A. Yao, Y. Guo, L. Xu, and Y. Chen. incremental network quantization: Towards lossless cnns with lowprecision weights. arXiv preprint arXiv:1702.03044 , 2017. 2

[45] S. Zhou, Y. Wu, Z. Ni, X. Zhou, H. Wen, and Y. Zou. Dorefa-net: Training low bitwidth convolutional neural networks with low bitwidth gradients. arXiv preprint arXiv:1606.06160 , 2016. 2

[46] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le. learning transferable architectures for scalable image recognition. arXiv preprint arXiv:1707.07012 , 2017. 1 , 2

黑子小明

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices （翻译）

ShuffleNet：一种用于移动设备的高效卷积神经网络Xiangyu Zhang ∗ Xinyu Zhou ∗ Mengxiao Lin Jian Sun Megvii Inc (Face++) { zhangxiangyu,zxy,linmengxiao,sunjian } @megvii.com摘要我们介绍了一种计算效率极高的CNN体系结构，名为ShuffleNet，它专门为计算能力非常有限的移动设备（例如10-150 MFLOPs）设计。新的体系结构利用了两种新的操作，逐点组卷积和信道shu
复制链接

扫一扫

专栏目录