PeleeNet论文翻译

对照英文原文阅读
Abstract
在计算能力和内存资源有限的移动设备上运行卷积神经网络(CNN)模型的需求日益增长,这鼓励了人们对有效模型设计的研究。近年来,已经提出了许多有效的体系结构,例如MobileNet,ShuffleNet和MobileNetV2。但是,所有这些模型都严重依赖于深度可分离卷积,这在大多数深度学习框架中缺乏有效的实现。在这项研究中,我们提出了一个名为PeleeNet的科学体系结构,该体系结构是使用常规卷积构建的。在ImageNet ILSVRC 2012数据集上,与NVIDIA TX2上的MobileNet和MobileNetV2相比,我们提出的PeleeNet具有更高的准确度和1.8倍的速度。同时,PeleeNet仅是MobileNet型号尺寸的66%。然后,我们通过结合PeleeNet和Single Shot MultiBox Detector(SSD)方法并优化体系结构以实现快速速度,提出了一种实时对象检测系统。我们建议的检测系统1名为Pelee,在iPhone 8上达到23.6 FPS,在NVIDIA TX2上达到125 FPS,在PASCAL VOC2007上达到76.4%mAP(平均平均精度),在MS COCO数据集上达到22.4 mAP。考虑到更高的精度,COCO的性能优于YOLOv2,其计算成本降低了13.6倍,模型尺寸更小了11.3倍。
Introduction
在内存和计算预算受到严格限制的情况下,运行高质量CNN模型的兴趣日益浓厚。 许多创新的体系结构,例如MobileNets Howard等。 (2017),Shu ffl eNet Zhang等。 (2017),NASNet-A Zoph等。 (2017),MobileNetV2 Sandler等人(2018),最近几年提出了这一建议。 然而,所有的研究结构在很大程度上都依赖于深度可分离的卷积塞格德·耶塔尔(Szegedyetal。,2015),这缺乏科学的实现。 同时,人们对结合快速目标检测算法的科学模型进行了研究(Huang等)。 (2016b)。 这项研究试图探索一种高效的CNN架构的设计,该架构既可用于图像分类任务,又可用于物体检测任务。 它做出了一些重要贡献,具体如下:
我们提出了一种稠密的NetHuangetal变体。(2016a)一种称为PeleeNet的移动设备架构。 PeleeNet遵循连通性模式和DenseNet的一些关键设计原则。 它还旨在满足对内存和计算预算的严格限制。 Stanford Dogs Khosla等人的实验结果。 (2011年)数据集表明,我们提出的PeleeNet的准确性比使用原始DenseNet架构构建的PeleeNet高5.05%,并且比MobileNet Howard等人高。 (2017)的6.53%。 PeleeNet在ImageNet ILSVRC 2012上获得了令人瞩目的结果Deng等。 (2009)。 PeleeNet的top-1准确性为72.1%,比MobileNet的准确性高1.6%。 还必须指出,PeleeNet仅是MobileNet型号的66%。 PeleeNet的一些关键功能是:
GoogLeNet Szegedy等人激发的双向密集层。 (2015年),我们使用2向致密层来获得不同的接收域规模。 层的单向使用3x3内核大小。 该层的另一种方式是使用两个堆叠的3x3卷积来学习大型对象的视觉模式。 结构如图1所示。
StemBlockMotivatedbyInception-v4Szegedyetal。(2017)和DSODShenetal。(2017),我们在第一个致密层之前设计了科学的干块。 干块的结构如图2所示。该干块可以有效地提高特征表达能力,而又不会增加过多的计算成本-比其他更昂贵的方法更好,例如,增加了第一卷积层的通道或增加了增长率。
瓶颈层中的动态通道数另一个亮点是,瓶颈层中的通道数根据输入形状而变化,而不是原始DenseNet中使用的固定4倍的增长率。 在DenseNet中,我们注意到对于第一个密集层,瓶颈通道的数量远大于其输入通道的数量,这意味着对于这些层,瓶颈层增加了计算成本,而不是降低了成本。 为了保持体系结构的一致性,我们仍将瓶颈层添加到所有密集层,但是数目会根据输入形状进行动态调整,以确保通道数不会超过输入通道。 与原始的DenseNet结构相比,我们的实验表明,该方法最多可以节省28.5%的计算成本,而对精度的影响很小。 (图3)
我们的实验表明,DenseNet提出的压缩因子会损害特征表达。 在过渡层中,我们始终将输出通道的数量与输入通道的数量保持相同。
复合函数为了提高实际速度,我们使用后激活的常规知识(Convolution-BatchNormalizationIo ff e&Szegedy(2015)-Relu)作为复合函数,而不是DenseNet中使用的预激活。 对于激活后,所有批处理归一化层都将在推理阶段与卷积层合并,这可以大大加快速度。 为了补偿此更改对准确性造成的负面影响,我们使用了浅而宽的网络结构。 我们还在最后一个密集块之后添加了一个1x1卷积层,以获得更强的表示能力。
我们优化了SingleShotMultiBoxDetector(SSD)Liuetal。(2016)的网络体系结构以加快速度,然后将其与PeleeNet结合使用。 我们提出的名为Pelee的系统在veringhametal(2010)2007和2007年22.4mAPonCOCO上分别达到了76.4%的mAPonPASCALVOCE,在准确性,速度和模型尺寸方面均优于YOLOv2 Redmon&Farhadi(2016)。 为平衡速度和准确性而提出的主要增强功能包括:
特征图选择我们以与原始SSD不同的方式构建对象检测网络,并精心选择了5组比例尺特征图(19 x 19、10 x 10、5 x 5、3 x 3和1 x 1)。 为了减少计算成本,我们不使用38 x 38特征图。
残差预测块我们遵循Lee等人提出的设计思想。 (2017年),通过功能提取网络超越了鼓励功能。 对于用于检测的每个功能图,在进行预测之前,先构建残差Heetal。(2016)块(ResBlock)。 ResBlock的结构如图4所示。
较小的卷积核用于预测残差预测块使我们可以应用1x1卷积核来预测类别分数和箱形集。 我们的实验表明,使用1x1内核的模型的准确性与使用3x3内核的模型的准确性几乎相同。 但是,1x1内核将计算成本降低了21.5%。
我们为NVIDIA TX2嵌入式平台和iPhone 8上的各种有效分类模型和不同的一阶段对象检测方法提供了基准测试。
Architecture
我们提议的PeleeNet的体系结构如表1所示。整个网络由一个词干块和四个阶段的特征提取器组成。 除最后阶段外,每个阶段的最后一层是平均缓冲池层,其步长为2。 在大型模型设计中,通常采用四阶段结构。 ShuffleNet Zhangetal。(2017)使用三个阶段的结构,并在每个阶段开始时缩小要素地图的大小。 尽管这可以有效地减少计算成本,但我们认为早期特征对于视觉任务非常重要,过早减小特征图的大小可能会损害表示能力。 因此,我们仍然保持四个阶段的结构。 将前两个阶段的层数具体控制在可接受的范围内。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值