ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices (翻译)

5 篇文章 0 订阅

ShuffleNet:一种用于移动设备的高效卷积神经网络

Xiangyu Zhang ∗ Xinyu Zhou ∗ Mengxiao Lin Jian Sun Megvii Inc (Face++) { zhangxiangyu,zxy,linmengxiao,sunjian } @megvii.com

摘要

我们介绍了一种计算效率极高的CNN体系结构,名为ShuffleNet,它专门为计算能力非常有限的移动设备(例如10-150 MFLOPs)设计。新的体系结构利用了两种新的操作,逐点组卷积和信道shuffle,在保持精度的同时大大降低了计算成本。ImageNet分类和MS COCO目标检测的实验表明,ShuffleNet优于其他结构,例如,在计算预算为40 MFLOPs的情况下,在ImageNet分类任务上,比最近的MobileNet[12]更低的top-1误差(绝对7.8%)。在基于ARM的移动设备上,ShuffleNet实现了∼ 13倍于AlexNet的实际加速比,同时保持可比精度。

1、引言

    构建更深更大的卷积神经网络(CNN)是解决主要视觉识别任务的主要趋势[21,9,33,5,28,24]。最精确的CNN通常有数百层和数千个通道[9,34,32,40],因此需要数十亿次的运算。本报告考察了另一个极端:在十分有限的计算预算中,以数十或数百mFLOP的速度追求最佳精度,重点关注无人机、机器人和智能手机等常见移动平台。请注意,许多现有的工作[16、22、43、42、38、27]侧重于修剪、压缩或表示“基本”网络架构的低位。在这里,我们的目标是探索一种高效的基本架构,专门为我们所需的计算范围而设计。
    我们注意到,由于成本高昂的密集1×1卷积,最先进的基本架构(如Exception[3]和ResNeXt[40])在非常小的网络中变得效率较低。我们建议使用逐点群卷积来降低1×1卷积的计算复杂度。
    为了克服群卷积带来的副作用,我们提出了一种新的通道shuffle操作来帮助信息在特征通道中流动。
    基于这两种技术,我们构建了一个高效的体系结构ShuffleNet。与[30,9,40]等流行结构相比,对于给定的计算复杂度预算,我们的ShuffleNet允许更多的特征映射通道,这有助于编码更多信息,对非常小的网络的性能尤为关键。
    我们在具有挑战性的ImageNet分类[4,29]和MS COCO目标检测[23]任务中评估了我们的模型。一系列受控实验表明了我们的设计原则的有效性,以及比其他结构更好的性能。与最先进的体系结构MobileNet[12]相比,ShuffleNet以显著的优势实现了卓越的性能,例如,在40 MFLOPs的水平上,ImageNet top-1错误的绝对值降低了7.8%。
    我们还研究了实际硬件上的加速,即基于ARM的现成计算核心。ShuffleNet模型实现∼ 比AlexNet[21]高13倍的实际加速比(理论加速比为18倍),同时保持相当的精度。

2.相关工作

    高效的模型设计在过去几年中,深度神经网络在计算机视觉任务中取得了成功【21、36、28】,其中模型设计发挥了重要作用。在嵌入式设备上运行高质量深层神经网络的需求不断增加,这鼓励了对高效模型设计的研究[8]。例如,与简单地叠加卷积层相比,谷歌网[33]以更低的复杂度增加了网络的深度。挤压网[14]在保持准确性的同时,显著减少了参数和计算量。
    ResNet[9,10]利用高效的瓶颈结构来实现令人印象深刻的性能。SENet[13]引入了一种架构单元,它可以在计算成本很低的情况下提高性能。与我们同时,最近的一项工作【46】采用强化学习和模型搜索来探索有效的模型设计。拟议的移动NASNet模型与我们的对应ShuffleNet模型的性能相当(对于ImageNet分类错误,564 MFLOPs为26.0%,524 MFLOPs为26.3%)。但是[46]不报告极小模型的结果(例如复杂度小于150 MFLOPs),也不评估移动设备上的实际推断时间。
    组卷积组卷积的概念首次在AlexNet【21】中引入,用于将模型分布在两个GPU上,在ResNeXt【40】中已经很好地证明了其有效性。Exception[3]中提出的深度可分离卷积推广了Inception级数[34,32]中可分离卷积的思想。
    最近,MobileNet[12]利用了深度可分离卷积,并在轻量级模型中获得了最先进的结果。我们的工作以一种新的形式推广了群卷积和深度可分卷积。
    据我们所知,尽管CNN库cuda convnet【20】支持“随机稀疏卷积”层,这相当于随机信道shuffle牌后接一个组卷积层,但信道shuffle操作的想法在之前的高效模型设计工作中很少提及。这种“随机shuffle”操作有不同的目的,后来很少被利用。最近,另一项并行工作[41]也采用了这种两级卷积的思想。然而,[41]并没有专门研究信道shuffle本身的有效性及其在微型模型设计中的使用。
    模型加速此方向旨在加速推理,同时保持预训练模型的准确性。
    修剪网络连接[6、7]或通道[38]可以在保持性能的同时减少预先训练的模型中的冗余连接。文献中提出了量化[31,27,39,45,44]和因式分解[22,16,18,37],以减少计算中的冗余,从而加速推理。
    在不修改参数的情况下,通过FFT[25,35]和其他方法[2]实现的优化卷积算法在实践中减少了时间消耗。提取[11]将知识从大型模型转换为小型模型,这使得小型模型的训练更加容易。
avatar
图1。通道shuffle与两个堆叠的组卷积。GConv代表组卷积。a) 具有相同组数的两个堆叠卷积层。每个输出通道仅与组内的输入通道相关。没有相声;b) 当GConv2在GConv1之后从不同组获取数据时,输入和输出通道完全相关;c) 与b)使用通道shuffle的等效实现。

3.方法

3.1. 用于群卷积的信道shuffle

    现代卷积神经网络[30,33,34,32,9,10]通常由具有相同结构的重复构建块组成。其中,最先进的网络,如Exception[3]和ResNeXt[40]将高效的深度可分离卷积或群卷积引入到构建块中,以在表示能力和计算成本之间达成良好的权衡。
    然而,我们注意到,这两种设计都没有充分考虑1×1卷积(在[12]中也称为点态卷积),这需要相当的复杂性。
    例如,在ResNeXt[40]中,只有3×3层配备了组卷积。因此,对于ResNeXt中的每个剩余单元,逐点卷积占据93.4%的乘法和(基数=32,如[40]中所建议的)。在小型网络中,昂贵的逐点卷积导致满足复杂度约束的通道数量有限,这可能会严重损害精度。
    为了解决这个问题,一个简单的解决方案是在1×1层上应用信道稀疏连接,例如组卷积。通过确保每个卷积只在相应的输入信道组上运行,组卷积显著降低了计算成本。然而,如果多组卷积叠加在一起,则有一个副作用:某个通道的输出仅来自一小部分输入通道。
    图1(a)示出了两个堆叠的组卷积层的情况。显然,某个群体的产出只与该群体内的投入有关。此属性会阻止通道组之间的信息流,并削弱表示。
    如果我们允许组卷积从不同的组获得输入数据(如图1(b)所示),输入和输出通道将完全相关。具体来说,对于从前一个组层生成的特征图,我们可以首先将每个组中的通道划分为几个子组,然后在下一个层中为每个组提供不同的子组。这可以通过信道shuffle操作高效且优雅地实现(图1(c)):假设一个卷积层具有g个组,其输出具有g×n个信道;我们首先将输出通道维度重塑为(g,n),进行转置,然后将其展平,作为下一层的输入。请注意,即使两个卷积的组数不同,该操作仍然有效。此外,信道shuffle也是可微的,这意味着它可以嵌入到网络结构中进行端到端的训练。
    通道shuffle操作使构建具有多个组卷积层的更强大的结构成为可能。在下一小节中,我们将介绍一种具有信道shuffle和组卷积的高效网络单元。
avatar
图2。shuffle单元。a) 带深度卷积(DWConv)的瓶颈单元[9][3,12];b) 具有逐点群卷积(GConv)和通道混洗的ShuffleNet单元;c) 步幅为2的ShuffleNet单位。

3.2. ShuffleNet单元

    利用信道shuffle操作,我们提出了一种专为小型网络设计的新型shuffle单元。我们从图2(a)中瓶颈单元[9]的设计原理开始。这是一个剩余的区块。在剩余分支中,对于3×3层,我们在瓶颈特征图上应用计算经济的3×3深度卷积[3]。然后,我们用逐点组卷积替换第一个1×1层,然后进行通道shuffle操作,以形成shuffle单元,如图2(b)所示。
    第二个逐点组卷积的目的是恢复通道维度以匹配快捷路径。
    为简单起见,我们不在第二个逐点层之后应用额外的通道shuffle操作,因为它会产生可比较的分数。批量归一化(BN)[15]和非线性的用法与[9,40]相似,只是我们在深度卷积后不使用ReLU,如[3]所示。
    对于ShuffleNet应用于stride的情况,我们只需做两个修改(参见图2(c)):(i)在快捷路径上添加3×3的平均池;(ii)用通道级联代替元素级加法,这样可以在几乎不增加额外计算成本的情况下轻松扩大通道维数。
    多亏了带有通道混洗的逐点组卷积,可以高效地计算混洗单元中的所有组件。与ResNet[9](瓶颈设计)和ResNeXt[40]相比,在相同的设置下,我们的结构具有更少的复杂性。例如,给定输入大小c×h×W和瓶颈通道m,ResNet单元需要avatar触发器,ResNeXt有avatar触发器,而我们的ShuffleNet单元只需要avatar触发器,其中g表示卷积的组数。换句话说,给定计算预算,ShuffleNet可以使用更广泛的特征映射。我们发现这对于小型网络来说至关重要,因为小型网络通常没有足够的通道来处理信息。
    此外,在ShuffleNet中,深度卷积仅在瓶颈特征映射上执行。尽管深度卷积通常具有非常低的理论复杂度,但我们发现很难在低功耗移动设备上有效实现,这可能是因为与其他密集运算相比,计算/内存访问率更差。[3]中也提到了这种缺点,它有一个基于TensorFlow[1]的运行库。在ShuffleNet单元中,我们有意只在瓶颈上使用深度卷积,以尽可能避免开销。
avatar
表1。ShuffleNet架构。复杂度是用浮点乘法加法来计算的。请注意,对于阶段2,我们不在第一个逐点层上应用组卷积,因为输入通道的数量相对较少。
avatar
表2。分类错误与组数g(较小的组数代表更好的性能)

3.3. 网络架构

    基于ShuffleNet单元,我们在表1中展示了ShuffleNet的总体架构。所提出的网络主要由一组分为三个阶段的ShuffleNet单元组成。每个阶段中的第一个构建块应用时步幅为2。一级中的其他超参数保持不变,下一级的输出通道加倍。与[9]类似,我们将瓶颈通道的数量设置为每个ShuffleNet单元输出通道的1/4。我们的目的是提供一个尽可能简单的参考设计,尽管我们发现进一步的超参数调谐可能会产生更好的结果。
    在ShuffleNet单元中,组号g控制逐点卷积的连接稀疏性。表1探讨了不同的组数,我们调整了输出通道,以确保总体计算成本大致不变(∼ 140兆次)。显然,对于给定的复杂度约束,较大的组数会导致更多的输出通道(从而产生更多的卷积滤波器),这有助于编码更多的信息,尽管由于相应的输入通道有限,这也可能导致单个卷积滤波器的性能降低。在第4.1.1节中,我们将研究这个数字在不同计算约束下的影响。
    为了将网络定制为所需的复杂度,我们可以简单地对通道数应用比例因子。
    例如,我们将表1中的网络表示为“ShuffleNet 1×”,然后“ShuffleNet s×”意味着将ShuffleNet 1×中的过滤器数量缩放s倍,因此总体复杂度大约是ShuffleNet 1×”的S2倍。

4.实验

    我们主要在ImageNet 2012分类数据集上评估我们的模型【29,4】。我们遵循[40]中使用的大多数训练设置和超参数,但有两个例外:(i)我们将权重衰减设置为4e-5,而不是1e-4,并使用线性衰减学习率策略(从0.5降低到0);(ii)我们在数据预处理中使用了稍微不那么激进的尺度增强。[12]中也提到了类似的修改,因为这样的小网络通常会出现欠拟合,而不是过拟合。在批量大小设置为1024的4个GPU上,训练一个模型进行3×105次迭代需要1到2天的时间。为了进行基准测试,我们在ImageNet验证集上比较了单次裁剪top-1的性能,即从256×输入图像裁剪224×224中心视图,并评估分类精度。我们对所有模型使用完全相同的设置,以确保公平比较。
avatar
表3。ShuffleNet带/不带通道shuffle(较小的数字代表更好的性能)

4.1. 消融研究

    ShuffleNet的核心思想在于逐点组卷积和通道混洗操作。在本小节中,我们分别对它们进行评估。

4.1.1逐点群卷积

    为了评估逐点群卷积的重要性,我们比较了相同复杂度的ShuffleNet模型,其群的数量从1到8不等。如果组数等于1,则不涉及逐点组卷积,然后ShuffleNet单元成为“类似异常的”[3]结构。为了更好地理解,我们还将网络的宽度扩展到3种不同的复杂性,并分别比较它们的分类性能。
    结果如表2所示。
    从结果中,我们可以看到,具有群卷积(g>1)的模型始终比没有逐点群卷积(g=1)的模型表现更好。
    较小的模特往往从群体中受益更多。例如,对于ShuffleNet 1×最佳条目(g=8)比对应条目好1.2%,而对于ShuffleNet 0.5×和0.25×,差距分别为3.5%和4.4%。请注意,对于给定的复杂性约束,组卷积允许更多的特征映射通道,因此我们假设性能增益来自更宽的特征映射,这有助于编码更多信息。此外,更小的网络包含更薄的特征图,这意味着它从放大的特征图中受益更多。
    表2还显示,对于某些模型(例如shufflenet 0.5×),当组数变得相对较大(例如g=8)时,分类分数饱和甚至下降。随着组数的增加(因此特征映射更宽),每个卷积滤波器的输入通道变得更少,这可能会损害表示能力。有趣的是,我们还注意到,对于较小的模型,例如ShuffleNet,0.25×更大的组数往往会始终获得更好的结果,这表明更宽的特征映射为较小的模型带来更多好处。

4.1.2通道混洗与非混洗

    shuffle操作的目的是为多个组卷积层启用跨组信息流。表3比较了ShuffleNet结构(例如,组数设置为3或8)在有/无通道混洗的情况下的性能。评估是在三种不同的复杂程度下进行的。很明显,通道shuffle会持续提高不同设置的分类分数。
    特别是,当组数相对较大(例如g=8)时,具有通道混洗的模型的性能显著优于对应的模型,这表明了跨组信息交换的重要性。

4.2. 与其他结构单元的比较

    VGG[30]、ResNet[9]、GoogleNet[33]、ResNeXt[40]和Exception[3]中最近领先的卷积单元在大型模型(例如:。≥ 1亿次),但没有充分探索低复杂度条件。在本节中,我们将考察各种构建块,并在相同的复杂性约束下与ShuffleNet进行比较。
    为了进行公平比较,我们使用了表1所示的整体网络架构。我们用其他结构替换阶段2-4中的ShuffleNet单元,然后调整通道数量以确保复杂性保持不变。我们探索的结构包括:•类似VGG。遵循VGG网络[30]的设计原则,我们使用两层3×3卷积作为基本构造块。与[30]不同的是,我们在每个卷积之后添加了一个批处理规范化层[15],以简化端到端的训练。
    •ResNet。在我们的实验中,我们采用了“瓶颈”设计,这在[9]中被证明是更有效的。与[9]相同,瓶颈比率1也是1:4。
    •类似于例外。[3]中提出的原始结构涉及不同阶段的奇特设计或超参数,我们发现很难在小型模型上进行公平比较。相反,我们从ShuffleNet(也相当于g=1的ShuffleNet)中删除逐点组卷积和通道shuffle操作。
    导出的结构与[3]中的“深度可分离卷积”概念相同,这里称之为类例外结构。
    •下一步。我们使用[40]中建议的基数=16和瓶颈比率=1:2的设置。我们还探索了其他设置,例如瓶颈比率=1:4,并得到了类似的结果。
    我们使用完全相同的设置来训练这些模型。
    结果如表4所示。在不同的复杂性下,我们的ShuffleNet模型比大多数其他模型都有显著的优势。有趣的是,我们发现了特征映射通道和分类精度之间的经验关系。
    例如,在38 MFLOPs的复杂度下,VGG-like、ResNet、ResNeXt、Exception-like、ShuffleNet模型的第4阶段(见表1)的输出通道分别为50、192、192、288、576,这与精度的提高相一致。由于shufflenet的高效设计,对于给定的计算预算,我们可以使用更多的通道,因此通常会产生更好的性能。
    请注意,上述比较不包括GoogleNet或Inception系列[33,34,32]。我们发现在小型网络中生成这样的初始结构是不寻常的,因为初始模块的原始设计涉及太多的超参数。作为参考,第一个GoogleNet版本[33]有31.3%的top-1错误,代价是1.5gflops(见表6)。然而,更复杂的初始版本[34,32]更准确,涉及的复杂性显著增加。最近,Kim等人提出了一种轻量级网络结构,名为PVANET[19],它采用了初始单元。我们重新实现的PVANET(输入大小为224×224)有29.7%的分类错误,计算复杂度为557 MFLOP,而我们的ShuffleNet 2x模型(g=3)有524 MFLOP,分类错误率为26.3%(见表6)。
avatar
表4。与各种结构相比,分类错误(%,较小的数字代表更好的性能)。我们没有在较小的网络上报告类似VGG的结构,因为准确度要差得多。
avatar
表5。ShuffleNet与MobileNet[12]关于ImageNet分类的比较

4.3. 与MobileNets和其他相比

    最近,Howard等人提出了MobileNet[12],主要关注移动设备的高效网络架构。MobileNet采用了[3]中深度可分离卷积的思想,并在小型模型上实现了最先进的结果。
    表5比较了各种复杂程度下的分类分数。很明显,我们的ShuffleNet模型在所有复杂性方面都优于MobileNet。虽然我们的ShuffleNet网络是专门为小型模型(<150 MFLOPs)设计的,但我们发现它在更高的计算成本方面仍然优于MobileNet,例如,以500 MFLOPs的成本比MobileNet 1×高3.1%。对于较小的网络(∼ ShuffleNet超过MobileNet 7.8%。请注意,我们的ShuffleNet架构包含50层,而MobileNet只有28层。为了更好地理解,我们还尝试在26层架构上使用ShuffleNet,方法是在第2-4阶段移除一半的块(参见表5中的“ShuffleNet 0.5×shallow(g=3)”。结果表明,较浅的模型仍明显优于相应的MobileNet,这意味着ShuffleNet的有效性主要取决于其有效的结构,而不是深度。
    表6将我们的ShuffleNet与几个流行的型号进行了比较。结果表明,在精度相近的情况下,ShuffleNet比其他方法效率更高。例如,shufflenet 0.5×理论上比具有可比分类分数的AlexNet[21]快18倍。我们将在第4.5节中评估实际运行时间。
    还值得注意的是,简单的架构设计使舒夫网易于配备最新的先进技术,如[13,26]。例如,在[13]中,作者提出了挤压和激发(SE)块,可在大型ImageNet模型上获得最先进的结果。我们发现SE模块与主干ShuffleNet结合也会起作用,例如,将ShuffleNet的前1位误差提高了2倍至24.7%(如表5所示)。有趣的是,虽然理论复杂度的增加可以忽略不计,但我们发现带有SE模的ShuffleNet通常为25∼ 比移动设备上的“原始”ShuffleNet慢40%,这意味着实际的加速比评估对低成本架构设计至关重要。在第4.5节中,我们将进一步讨论。
avatar
表6。复杂性比较。*由BVLC实施(https://github.com/BVLC/caffe/tree/master/models/bvlc谷歌网)
avatar
表7。MS COCO上的目标检测结果(数字越大表示性能越好)。对于MobileNets,我们比较了两个结果:1)[12]报告的可可豆检测分数;2) 我们重新实现的MobileNets的微调,其训练和微调设置与ShuffleNets完全相同。
avatar
表8。移动设备上的实际推断时间(较小的数字代表更好的性能)。该平台基于单个高通Snapdragon 820处理器。所有结果均采用单线程进行评估。

4.4. 泛化能力

    为了评估迁移学习的泛化能力,我们在MS COCO对象检测任务上测试了我们的ShuffleNet模型【23】。我们采用更快的RCNN【28】作为检测框架,并使用公开发布的Caffe代码【28,17】进行训练,默认设置。与[12]类似,模型在COCO训练+val数据集上进行训练,不包括5000张minival图像,我们在minival集上进行测试。表7显示了两种输入分辨率下训练和评估结果的比较。将ShuffleNet 2×与复杂度可比的MobileNet(524对569 MFLOPs)进行比较,我们的ShuffleNet 2×在两种分辨率上都显著优于MobileNet;我们的ShuffleNet 1×在600×分辨率上也与MobileNet取得了相当的结果,但是∼ 4×复杂度降低。我们推测,这一显著的收益部分是由于ShuffleNet没有铃铛和哨子的简单建筑设计。

4.5. 实际加速比评估

    最后,我们在带有ARM平台的移动设备上评估了shufflenet模型的实际推理速度。
    虽然具有较大组号(例如g=4 org=8)的ShuffleNet通常具有更好的性能,但我们发现它在当前的实现中效率较低。根据经验,g=3通常在准确性和实际推理时间之间有一个适当的权衡。如表8所示,测试使用了三种输入分辨率。由于内存访问和其他开销,我们发现每减少4×理论复杂性通常会导致∼ 2.6×我们实施中的实际加速。
    然而,与AlexNet[21]相比,我们的ShuffleNet 0.5×模型仍然达到∼ 13×可比分类精度下的实际加速比(理论加速比为18×),比之前的AlexNet级模型或加速比方法(如[14、16、22、42、43、38])快得多。

参考文献

[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467 , 2016. 4

[2] H. Bagherinezhad, M. Rastegari, and A. Farhadi. Lcnn: Lookup-based convolutional neural network. arXiv preprint arXiv:1611.06473 , 2016. 2

[3] F. Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357 , 2016. 1 , 2 , 3 , 4 , 5 , 6

[4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. feifei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on , pages 248–255. IEEE, 2009. 1 , 4

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition , pages 580–587, 2014. 1

[6] S. Han, H. Mao, and W. J. Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv preprint arXiv:1510.00149 , 2015. 2

[7] S. Han, J. Pool, J. Tran, and W. Dally. Learning both weights and connections for efficient neural network. In Advances in Neural Information Processing Systems , pages 1135–1143, 2015. 2

[8] K. He and J. Sun. Convolutional neural networks at constrained time cost. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 5353– 5360, 2015. 1

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition , pages 770–778, 2016. 1 , 2 , 3 , 4 , 5 , 6

[10] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In European Conference on computer Vision , pages 630–645. Springer, 2016. 1 , 2

[11] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531 , 2015. 2

[12] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 , 2017. 1 , 2 , 3 , 5 , 6 , 7

[13] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507 , 2017. 1 , 6 , 7

[14] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 0.5 mb model size. arXiv preprint arXiv:1602.07360 , 2016. 1 , 7 , 8

[15] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167 , 2015. 3 , 5

[16] M. Jaderberg, A. Vedaldi, and A. Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866 , 2014. 1 , 2 , 8

[17] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. girshick, S. Guadarrama, and T. Darrell. Caffe: convolutional architecture for fast feature embedding. In proceedings of the 22nd ACM international conference on multimedia , pages 675–678. ACM, 2014. 7

[18] J. Jin, A. Dundar, and E. Culurciello. Flattened convolutional neural networks for feedforward acceleration. arXiv preprint arXiv:1412.5474 , 2014. 2

[19] K.-H. Kim, S. Hong, B. Roh, Y. Cheon, and M. Park. Pvanet: Deep but lightweight neural networks for real-time object detection. arXiv preprint arXiv:1608.08021 , 2016. 6

[20] A. Krizhevsky. cuda-convnet: High-performance c++/cuda implementation of convolutional neural networks, 2012. 2

[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems , pages 1097–1105, 2012. 1 , 2 , 7 , 8

[22] V. Lebedev, Y. Ganin, M. Rakhuba, I. Oseledets, and V. Lempitsky. Speeding-up convolutional neural networks using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553 , 2014. 1 , 2 , 8

[23] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. ramanan, P. Dollár, and C. L. Zitnick. Microsoft coco: common objects in context. In European Conference on computer Vision , pages 740–755. Springer, 2014. 1 , 7

[24] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern recognition , pages 3431–3440, 2015. 1

[25] M. Mathieu, M. Henaff, and Y. LeCun. Fast training of convolutional networks through ffts. arXiv preprint arXiv:1312.5851 , 2013. 2

[26] P. Ramachandran, B. Zoph, and Q. V. Le. Swish: a self-gated activation function. arXiv preprint arXiv:1710.05941 , 2017. 7

[27] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. xnornet: Imagenet classification using binary convolutional neural networks. In European Conference on Computer Vision , pages 525–542. Springer, 2016. 1 , 2

[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems , pages 91–99, 2015. 1 , 7

[29] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision , 115(3):211–252, 2015. 1 , 4

[30] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 , 2014. 1 , 2 , 5 , 7

[31] D. Soudry, I. Hubara, and R. Meir. Expectation backpropagation: Parameter-free training of multilayer neural networks with continuous or discrete weights. In Advances in Neural Information Processing Systems , pages 963–971, 2014. 2

[32] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi. inceptionv4, inception-resnet and the impact of residual connections on learning. arXiv preprint arXiv:1602.07261 , 2016. 1 , 2 , 6

[33] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 1–9, 2015. 1 , 2 , 5 , 6 , 7

[34] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 2818–2826, 2016. 1 , 2 , 6

[35] N. Vasilache, J. Johnson, M. Mathieu, S. Chintala, S. piantino, and Y. LeCun. Fast convolutional nets with fbfft: A gpu performance evaluation. arXiv preprint arXiv:1412.7580 , 2014. 2

[36] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE Conference on Computer Vision and Pattern recognition , pages 3156–3164, 2015. 1

[37] M. Wang, B. Liu, and H. Foroosh. Design of efficient convolutional layers using single intra-channel convolution, topological subdivisioning and spatial ”bottleneck” structure. arXiv preprint arXiv:1608.04337 , 2016. 2

[38] W. Wen, C. Wu, Y. Wang, Y. Chen, and H. Li. Learning structured sparsity in deep neural networks. In Advances in Neural Information Processing Systems , pages 2074–2082, 2016. 1 , 2 , 8

[39] J. Wu, C. Leng, Y. Wang, Q. Hu, and J. Cheng. Quantized convolutional neural networks for mobile devices. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 4820–4828, 2016. 2

[40] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. arXiv preprint arXiv:1611.05431 , 2016. 1 , 2 , 3 , 4 , 5 , 6

[41] T. Zhang, G.-J. Qi, B. Xiao, and J. Wang. Interleaved group convolutions for deep neural networks. In International conference on Computer Vision , 2017. 2

[42] X. Zhang, J. Zou, K. He, and J. Sun. Accelerating very deep convolutional networks for classification and detection. IEEE transactions on pattern analysis and machine intelligence , 38(10):1943–1955, 2016. 1 , 8

[43] X. Zhang, J. Zou, X. Ming, K. He, and J. Sun. Efficient and accurate approximations of nonlinear convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pages 1984–1992, 2015. 1 , 8

[44] A. Zhou, A. Yao, Y. Guo, L. Xu, and Y. Chen. incremental network quantization: Towards lossless cnns with lowprecision weights. arXiv preprint arXiv:1702.03044 , 2017. 2

[45] S. Zhou, Y. Wu, Z. Ni, X. Zhou, H. Wen, and Y. Zou. Dorefa-net: Training low bitwidth convolutional neural networks with low bitwidth gradients. arXiv preprint arXiv:1606.06160 , 2016. 2

[46] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le. learning transferable architectures for scalable image recognition. arXiv preprint arXiv:1707.07012 , 2017. 1 , 2

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值