Pelee:A Real-Time Object Detection System On Mobile Devices

Abstract

  • 在具有有限计算能力和存储器资源的移动设备上运行卷积神经网络(CNN)模型的日益增长的需求促进了对高效模型设计的研究。 近年来已经提出了许多高效的体系结构,例如,MobileNet,ShuffleNet和MobileNetV2。然而,所有这些模型都严重依赖于深度可分离卷积,这在大多数深度学习框架中缺乏有效的实现。在这项研究中,我们提出了一个名为PeleeNet的高效架构,它采用传统的卷积方式构建。在ImageNet ILSVRC 2012数据集上,我们提出的PeleeNet在NVIDIA TX2上实现了比MobileNet和MobileNetV2更高的准确度和1.8倍的速度。同时,PeleeNet仅占MobileNet模型规模的66%。 然后,我们提出了一种实时物体检测系统,它将PeleeNet与单次多盒检测器(SSD)方法相结合,并优化架构以实现快速速度。我们提出的检测系统1,名为Pelee,在PASCAL VOC2007上达到76.4%mAP(平均精度),在MSCOCO数据集上达到22.4 mAP,速度为iPhone 8上的23.6 FPS和NVIDIA TX2上的125 FPS。 考虑到更高的精度,13CO的计算成本和11.3倍的模型尺寸,COCO的结果优于YOLOv2。

Introduction

  • 在严格限制内存和计算预算的情况下,人们越来越关注运行高质量的CNN模型。 许多创新架构,如MobileNets Howard等。 (2017),舒ffl eNet Zhang等。 (2017),NASNet-A Zoph等。 (2017),MobileNetV2 Sandler etal。(2018),近年来已被提出。 然而,所有这些架构都严重依赖于深度可分离卷积Szegedy等人,它缺乏有效的实现。 同时,很少有研究将高效模型与快速物体检测算法相结合。 本研究试图探索用于图像分类任务和物体检测任务的高效CNN架构的设计。 它列出了一些主要贡献如下:
  • 我们为移动设备提出了一种名为PeleeNet的DenseNet Huang等人(2016a)架构的变体。 PeleeNet遵循连接模式和DenseNet的一些关键设计原则。 它还旨在满足对内存和计算预算的严格限制。 Stanford Dogs Khosla等人的实验结果。 (2011)数据集显示我们提出的PeleeNet精度高于使用原始DenseNet架构构建的PeleeNet 5.05%并且高于MobileNet Howard等人。 (2017年)减少6.53%。 PeleeNet在ImageNet ILSVRC 2012邓等人的研究中取得了令人瞩目的成果。 (2009年)也是如此。 PeleeNet的前1个准确度为72.6%,比MobileNet高2.1%。 同样重要的是要指出PeleeNet仅占MobileNet模型大小的66%。 PeleeNet的一些主要功能包括:
  1. 由GoogLeNet Szegedy等人推动的双向密集层。 (2015年),我们使用双向致密层来获得不同尺度的接收场。 该层的一种方法使用3x3内核大小。 图层的另一种方式是使用两个堆叠的3x3卷积来学习大对象的视觉模式。 结构如图1所示:
  2. 由Inception-v4 Szegedy等人和DSOD Shen等人激发的茎块,我们在第一致密层之前设计了一个成本效率高的茎块。 茎块的结构如图2所示。该茎块可以有效地提高特征表达能力而不会增加太多的计算成本 - 比其他更昂贵的方法更好 - 例如,增加第一卷积层的通道或增加生长速率。
  3. 瓶颈层中的动态通道数量另一个亮点是瓶颈层中的通道数量根据输入形状而不是固定的原始DenseNet中使用的4倍增长率而变化。 在DenseNet中,我们观察到对于前几个密集层,瓶颈通道的数量远大于其输入通道的数量,这意味着对于这些层,瓶颈层增加了计算成本而不是降低成本。 为了保持架构的一致性,我们仍然将瓶颈层添加到所有密集层,但是根据输入形状动态调整数量,以确保通道数不超过输入通道。 与原始的DenseNet结构相比,我们的实验表明,该方法可以节省高达28.5%的计算成本,同时对精度影响很小。
  4. 我们的实验表明,DenseNet提出的压缩因子会损害特征表达。 我们始终保持输出通道的数量与过渡层中的输入通道数量相同。
  5. 为了提高实际速度,我们使用后激活的传统智慧作为我们的复合函数,而不是在DenseNet中使用的预激活。 对于后激活,所有批量归一化层可以在推理阶段与卷积层合并,这可以大大加快速度。 为了弥补这种变化对准确性的负面影响,我们使用浅而宽的网络结构。 我们还在最后一个密集块之后添加了一个1x1卷积层,以获得更强的表示能力。
  • 我们优化了Single Shot MultiBox Detector(SSD)Liu etal。(2016)的网络架构,用于速度加速,然后将其与PeleeNet相结合。 我们提出的系统名为Pelee,在PASCAL VOC2007上获得了76.4%的mAP,在COCO上实现了22.4 mAP。 在精度,速度和模型尺寸方面,它优于YOLOv2 Redmon&Farhadi(2016)。 为平衡速度和准确性而提出的主要改进是:
  1. 功能图选择我们以与原始SSD不同的方式构建物体检测网络,并精心选择5个比例特征图(19 x 19,10 x 10,5 x 5,3 x 3和1 x 1)。 为了降低计算成本,我们不使用38 x 38特征映射。
  2. 剩余预测块我们遵循Lee等人提出的设计思想。 (2017)鼓励功能沿特征提取网络传递。 对于用于检测的每个特征图,我们在进行预测之前构建残差He等人(2016)块(ResBlock)。 ResBlock的结构如图4所示
  3. 用于预测的小卷积核残差预测块使我们可以应用1x1卷积核来预测类别得分和盒子集合。 我们的实验表明,使用1x1内核的模型的准确性几乎与使用3x3内核的模型的准确性相同。 但是,1x1内核可将计算成本降低21.5%。

PeleeNet:An Efficient Feature Extraction Network

  • 我们提出的PeleeNet的体系结构如表1所示。整个网络由一个干块和四个特征提取器组成。 除了最后阶段,每个阶段的最后一层是具有步幅2的平均汇集层。四阶段结构是大型模型设计中常用的结构。 Shu ffl eNet Zhang etal。(2017)使用三阶段结构,并在每个阶段开始时缩小特征图大小。 虽然这可以有效地降低计算成本,但我们认为早期特征对于视觉任务非常重要,过早减小特征图大小会损害表示能力。 因此,我们仍然保持四阶段结构。 前两个阶段的层数被特定地控制在可接受的范围内。

PeleeNet:A Real-Time Object Detection System

  • 本节介绍我们的对象检测系统和SSD的优化。我们优化的主要目的是以可接受的准确度提高速度。除了我们在上一节中提出的高效特征提取网络之外,我们还以与原始SSD不同的方式构建对象检测网络,并使用精心选择的5个比例特征图集。同时,对于用于检测的每个特征图,我们在进行预测之前构建残差块(图4)。我们还使用小卷积内核来预测对象类别和边界框位置,以降低计算成本。此外,我们使用相当不同的训练超参数。虽然这些贡献可能看起来很小,但我们注意到最终系统在PASCAL VOC2007上达到70.9%mAP,在MS COCO数据集上达到22.4 mAP。考虑到更高的精度,13CO的计算成本和11.3倍的模型尺寸,COCO的结果优于YOLOv2。
  • 我们的系统中有5个特征图用于预测:19 x 19,10 x 10,5 x 5,3 x 3和1 x 1.我们不使用38 x 38特征地图图层来确保平衡 在速度和准确度之间达成。 19x19特征图组合为两个不同的默认框的比例,其他4个特征图中的每一个都组合为一个默认框的比例。 黄等人。 黄等人。 (2016b)将SSD与MobileNet结合使用时,也不使用38x38比例功能图。 然而,他们添加了另外2 x 2特征图来保留用于预测的6个特征图比例,这与我们的解决方案不同。

Conclusion

  • 深度可分卷积不是构建高效模型的唯一方法。 我们提出的PeleeNet和Pelee不是使用深度可分离卷积,而是使用传统卷积构建,并在ILSVRC 2012,VOC 2007和COCO上取得了令人瞩目的成果。通过将高效的架构设计与移动GPU和硬件指定的优化运行时库相结合,我们能够对移动设备上的图像分类和对象检测任务进行实时预测。 例如,Pelee,我们提出的物体检测系统,可以在iPhone 8上运行23.6 FPS,在NVIDIA TX2上运行125 FPS,具有高精度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值