All You Need is a Few Shifts论文翻译

目录

您所需要的只是几处转变:设计用于图像分类的高效卷积神经网络

摘要

介绍

相关工作

神经网络压缩

紧凑型网络开发

背景

设计很少移位的高效卷积神经网络

零星换挡操作

量化意识的转变学习

网络架构改进

实验

基准和培训设置

消融研究

案例分析

ImageNet上的性能

结论


您所需要的只是几处转变:设计用于图像分类的高效卷积神经网络

摘要

移位运算是深度可分离卷积的有效替代方法。 但是,它的实现方式仍然存在瓶颈,即内存移动。 为了向这个方向发展,本文介绍了一种新的,称为稀疏移位层(SSL)的基本组件,以构造有效的卷积神经网络。

在该系列体系结构中,基本块仅由1x1卷积层组成,并且仅将少量移位操作应用于中间特征图。 为了使该想法可行,我们在优化过程中引入了移位运算代价,并进一步提出了一种量化感知的移位学习方法,以使学习的位移更易于推理。 广泛的消融研究表明,只有很少的移位操作足以提供空间信息通信。 此外,为了最大限度地发挥SSL的作用,我们重新设计了改进的网络体系结构,以充分利用神经网络(FE-Net)有限的容量。 配备SSL,此网络仅需563M M-Adds就可以在ImageNet上达到75.0%的top-1准确性。 在准确性和实用速度方面,它超过了由深度可分离卷积和NAS搜索的网络构成的其他副本。

介绍

由于卷积神经网络(CNN)的惊人性能,将CNN应用于实际应用场景已成为一种大趋势。 但是,这是由其大量的计算成本和存储开销引起的,这促使许多研究人员和工程师涌入这一主题。

解决此问题的有用解决方案之一是直接设计准确而紧凑的神经网络体系结构。 精心设计的网络拓扑以及对硬件友好的基本组件可以带来令人惊讶的突破。 最近,一种流行的基本组件被称为深度可分离卷积

图1.比较应用于特征图的不同移位操作。

设计轻量级架构,例如MobileNet [10]和ShuffleNet [40]。 尽管其浮点运算(FLOP)较低,但由于内存占用量不足,在实践中实施效率低下。 为了摆脱深度可分离卷积的约束,ShiftNet [37]提出了另一种选择,即移位操作,以构造与点向卷积配合的架构。

在该网络中,移位操作通过移位特征图提供空间信息通信,这使得后面的逐点卷积层不仅可用于信道信息聚合,而且可用于空间信息聚合。

为了比较这两个基本组件,我们分解了ShiftNet的每个基本组件的占用时间,以便在计算绑定和内存绑定计算平台上进行详细分析。 如图2(a)和(b)所示,移位操作在CPU上占运行时间的3.6%,但在GPU上占28.1%,这表明由于内存移动,移位操作在受内存限制的计算平台上仍占据相当大的运行时间。

至于深度可分离卷积,在MobileNetV2中,它在GPU上的运行时间约占36%。 但是,在两个不同的体系结构中比较这两个组件是不公平的。

图2.实际的运行时分析。 为了清楚地进行比较,忽略了批归一化层和ReLU层,因为它们可以合并到卷积层中进行推理。 此外,此处不考虑数据馈送和预处理时间。 在Caffe的迷你批次32下获得了结果。它们是从100次运行中得出的平均值。  (a)CPU上的ShiftNet-A [37](英特尔至强E5-2650,地图集)。  (b)GPU上的ShiftNet-A(TITAN X Pascal,CUDA8和cuDNN5)。  (c)将ShiftNet-A中的Shift层替换为深度可分离的卷积层。(d)内核大小为5的深度可分离卷积层被内核大小为3的层替换。(e)ShiftNet-A在GPU上具有80%的移位稀疏度(移位稀疏度表示未移位特征图的比率)。

为了公平地比较,我们将相同的体系结构与ShiftNet一起使用,仅将移位操作替换为深度可分离卷积以测试其推理时间。 如图2(c)所示,它在GPU上占用了79.2%的运行时间,这严重地使其理论FLOP不匹配。 从这个角度来看,移位运算明显优于深度可分离卷积。 同样,移位运算的另一个吸引人的特征是它的计算成本与内核大小无关,而深度可分离卷积的实际运行时间却受到内核大小的强烈影响。

       如图2(c)和(d)所示,在将内核大小51减小到3之后,深度可分离卷积的占用运行时间降低到62.1%。

       尽管移位操作在实际运行时方面优于深度可分离卷积,但它的实现仍然存在瓶颈,即内存移动。 这里自然会产生一个问题,每次换档真的必要吗? 如果消除了无意义的移位,则可以减少那些移动的内存。 提出这个问题,我们对变速操作进行进一步的研究。

       为了抑制多余的变速操作,在优化过程中增加了代价。 我们惊奇地发现,实际上只有几个移位操作足以提供空间信息通信。 它可以通过移动一小部分特征图来提供可比的性能。 我们将这种类型的移位层命名为稀疏移位层(SSL),以便与其他类型的移位层区别开来,如图1所示。 如图2(e)所示,它可以显着减少引起稀疏之后的换挡操作所占用的时间。

       SSL的前提是要确保班轮学习能力。 常见的解决方案是放宽从整数到实值的位移,并在插值中放宽到双线性的移位运算,以使其可微[16]。 但是,插值不能带来与移位操作相同的推理优势。 借鉴QNN的想法[13],我们提出了一种量化感知的移位学习方法,以使移位操作可微,同时避免推理过程中的插值。

       设计紧凑的网络体系结构时,一个直接的指导方针是在确保信息流的同时保持功能图的多样性。 我们希望它可以在有限的特征空间中包含尽可能多的与标签有关的信息。 但是,特征图通常倾向于折叠成一个小的子集,这不能完全利用有限的特征空间。 为了缓解这个问题,我们设计了一种新颖的网络架构FE-Net,如图3所示,随着层的增加以增加分集的同时将特征图映射到计算中,同时避免了冗余开销。

       在本文中,我们主要在图像分类基准上进行实验。 对CIFAR-10和CIFAR100的大量消融研究证实了SSL的影响。

       此外,我们在大型图像分类数据集ImageNet上进行了实验,以确认SSL的效率和推广。 随着网络架构的改进,我们大大超越了ShiftNet和AS-ResNet [16]。 值得强调的是,我们的网络甚至超过了由深度可分离卷积组成的其他网络。 使用563M M-Adds,我们在ImageNet上的top-1准确性达到75.0%。 这是紧凑型网络首次在这种计算成本水平上实现如此高的精度,而无需使用深度可分离卷积。 以适当的方式配备了挤压和激励模块[11],我们的网络可以通过566M M-Adds进一步提高到76.5%的top-1准确性。

       总而言之,我们的主要贡献如下:

•引入了一个名为“稀疏移位层”的新基本组件来构建快速而准确的神经网络,这可以消除无意义的内存移动。

       除此之外,通过广泛的消融研究,我们发现只有很少的移位操作足以提供空间信息通信,这将激发紧凑神经网络发展的更多探索。

       •提出了一种量化感知的移位学习方法,以确保可学习移位操作,同时避免推理过程中的插值。

       •设计了一种改进的紧凑型网络架构,以充分利用有限功能空间的容量。 将其与SSL结合使用,我们在准确性和推理速度方面都达到了分类基准中的最新结果。

相关工作

在过去的几年中,提出了越来越多的方法来减轻神经网络的存储,计算和实际推理时间,同时保持其性能强大。 从是否给出预训练模型的角度来看,我们将这些相关方法分为以下两个部分。

神经网络压缩

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值