shift论文翻译

本文提出了一种名为移位的操作,作为神经网络中空间卷积的替代,以实现零FLOP和零参数。移位操作与逐点卷积相结合,构建了端到端可训练的基于移位的模块,可以在准确性和效率之间进行权衡。通过在ResNet的3x3卷积上应用移位操作,研究显示在CIFAR10和CIFAR100上参数减少了60%,同时提高了准确性。此外,移位操作在ImageNet上展现出参数减少的弹性,并在多个任务(如图像分类、面部验证和样式转移)中取得了出色性能,且参数更少。
摘要由CSDN通过智能技术生成

Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions

  • 摘要

神经网络依靠卷积来聚合空间信息。 但是空间卷积在模型大小和计算方面是昂贵的,两者相对于内核大小都呈平方增长。 在本文中,我们提出了无参数,无FLOP的“移位”操作,以替代空间卷积。 我们融合了移位和逐点卷积,以构建端到端可训练的基于移位的模块,并具有超参数特性,可在准确性和效率之间进行权衡。 为了证明该手术的功效,我们将ResNet的3x3卷积替换为基于班次的模块,以减少60%的参数来提高CI FAR10和CIFAR100的准确性; 我们还展示了该操作在ImageNet上减少参数减少的弹性,胜过ResNet系列成员。 最后,我们展示了移位操作在各个领域的适用性,以更少的分类,面部验证和样式转移参数实现了出色的性能。

  • 引言及相关工作

卷积神经网络(CNN)在计算机视觉任务中无处不在,包括图像分类,对象检测,面部识别和样式转换。 这些任务使许多新兴的移动应用程序和物联网(IOT)设备成为可能。 但是,这样的设备具有显着的内存限制,并且对空中更新的大小有所限制(例如100-150MB)。 反过来,这限制了这些应用中使用的CNN的大小。 因此,我们致力于在适用任务上减少CNN模型的尺寸,同时保持准确性。

 CNN依靠内核大小为3x3或更大的空间卷积来聚集图像中的空间信息。 但是,空间卷积在计算和模型大小上都非常昂贵,每一个都相对于内核大小呈平方增长。

图1:移位操作后跟1x1卷积的示意图。 移位操作可在空间上调整数据,并且1x1卷积可在通道之间混合信息。

在VGG-16模型[19]中,3x3卷积占1500万个参数,而fc1层(实际上是7x7卷积)占1.02亿个参数。

已经采取了几种策略来减小空间卷积的大小。  ResNet [6]使用“瓶颈模块”,在3x3卷积之前和之后放置两个1x1卷积,从而减少了其输入和输出通道的数量。 尽管如此,在具有机器人细颈模块的ResNet模型中,3x3卷积层仍占所有参数的50%。  SqueezeNet [9]采用“发射模块”,其中3x3卷积和1x1卷积的输出沿通道尺寸连接。 最近的网络,如ResNext [26],MobileNet [7]和Xception [1],都采用组卷积和深度可分离卷积作为标准空间卷积的替代方法。 从理论上讲,深度卷积需要较少的计算。 但是,在实践中很难有效地实现深度卷积,因为它们的算术强度(FLOP与内存访问的比率)太低而无法有效利用硬件。 在[29,1]中也提到了这种缺陷。  ShuffleNet [29]集成了深度方向卷积,点方向群卷积和通道方向混洗,以进一步减少参数和复杂度。 在另一篇著作中,[12]继承了可分离卷积的概念,以冻结空间卷积并仅学习逐点卷积。 这确实减少了可学习的参数数量,但不足以节省FLOP或模型尺寸。

我们的方法是完全避开空间卷积

图2:(a)空间卷积,(b)深度卷积和(c)移位的图示。 在(c)中,3x3网格表示核尺寸为3的位移矩阵。亮的单元格在该位置表示1,而白色单元格则表示0。

在本文中,我们提出了移位运算(图1)作为空间卷积的替代方法。 移位操作将其输入张量的每个通道沿不同的空间方向移动。 基于移位的模块通过逐点卷积交错移位操作,从而进一步混合了跨通道的空间信息。 与空间卷积不同,移位操作本身需要零个FLOP和零个参数。 与深度卷积相反,可以轻松有效地执行移位操作。

我们的方法与模型压缩[4],张量分解[27]和低位网络[16]正交。 结果,这些技术中的任何一种都可以与我们提出的方法结合使用,以进一步减小模型尺寸。

我们针对基于移位的模块引入了新的超参数“扩展” E,它对应于FLOP /参数与精度之间的权衡。 这使从业人员可以根据特定的设备或应用程序要求选择模型。 然后,使用基于班次的模块,我们提出了一个称为ShiftNet的新体系结构系列。 为了证明这一新操作的有效性,我们在几个任务上评估Shift Net:图像分类,面部验证和样式转换。  ShiftNet使用少得多的参数,即可获得具有竞争力的性能。

  • 移位模块和网络设计

我们首先回顾图2所示的标准空间和深度卷积。考虑图2(a)中的空间卷积,其中将张量作为输入 。 令表示高度和宽度,M表示通道尺寸。 空间卷积的核是张量,其中表示核的空间高度和宽度,N表示过滤器的数量。 为简单起见,我们假设步幅为1,并且输入/输出具有相同的空间尺寸。 然后,空间卷积输出张量,可以将其计算

其中是重新定义的空间索引;  k,l和i,j沿空间维度索引,而n,m则索引为通道。 空间卷积所需的参数数量为,计算量为。 随着内核大小的增加,我们看到参数数量和计算成本呈二次方增长。

 空间卷积的一个流行变体是深度卷积[7,1],通常后面是点状

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值