谷歌团队告诉你如何选择目标检测的架构!!!

谷歌团队在2017年CVPR论文中探讨了目标检测架构的选择,针对速度和精度的权衡。研究涵盖了faster R-CNN、R-FCN和SSD等元架构,通过实验展示了减少提案数量如何提高faster R-CNN的速度,以及SSD对特征抽取器质量的敏感度相对较低。此外,文中提出了实时运行和移动设备部署的探测器,以及适用于COCO挑战赛的高性能模型训练策略。
摘要由CSDN通过智能技术生成

谷歌团队告诉你如何选择目标检测的架构!!!

谷歌团队在2017年CVPR上发表了一篇论文,主要讲述了从业者该如何选择目标检测的架构。以及根据应用场合及需要的条件进行速度及精度的权衡。本文主要是原论文的翻译。
原论文链接

现代卷积目标检测器的速度/精度权衡

摘要

本文的目的是作为选择一种检测架构的指南,该架构能够为给定的应用程序和平台实现正确的速度/内存/精度平衡。为此,我们研究了在现代卷积目标检测系统中以精度换取速度和内存使用的各种方法。近年来,人们提出了许多成功的系统,但由于不同的基本特征抽取器(如VGG、残差网络)、不同的默认图像分辨率以及不同的硬件和软件平台,实现最佳应用比较困难。我们提出了faster R-CNN的统一实现[30],R-FCN[6]和SSD[25]系统,我们将其视为“元架构”,并通过使用替代特征提取器和在每个元架构中改变其他关键参数(如图像大小)来跟踪速度/精度权衡曲线。速度和内存是至关重要的,我们提出了一个探测器,实现实时速度,并可以部署在移动设备上。另一方面,准确度是关键,我们提出了一个探测器,在COCO训练家集上实现了最先进的性能测量。

一 介绍

由于卷积神经网络(CNNs)的应用,近年来在目标检测方面取得了很大的进展。基于这些网络的现代目标探测器-例如faster R-CNN[30]、R-FCN[6]、Multibox[39]、SSD[25]和YOLO[28]-现在已经足够好,可以部署在消费产品(例如Google Photos、Pinterest Visual Search)中,有些已经显示足够快,可以在移动设备上运行。
然而,从业者很难决定什么架构最适合他们的应用程序。由于对于计算机视觉系统的实际部署,运行时间和内存使用也是至关重要的,因此平均精度(mAP)等标准度量并不能说明全部情况。例如,移动设备通常需要较小的内存占用,而自动驾驶汽车则需要实时性能。服务器端的生产系统,如Google、Facebook或Snapchat中使用的系统,在优化准确性方面有更大的回旋余地,但仍受到吞吐量限制的影响。虽然赢得比赛的方法,如COCO challenge[24],是为了精确性而优化的,但它们通常依赖于模型集成和multicrop方法,这些方法在实际应用中速度太慢。
不幸的是,只有一小部分论文(如RFCN[6]、SSD[25]YOLO[28])详细讨论了运行时间。此外,这些论文通常只说明它们达到了一定的帧速率,但没有给出速度/精度权衡的全貌,这取决于许多其他因素,例如使用哪个特征提取器、输入图像大小等。
在本文中,我们试图以一种详尽和公平的方式探讨现代检测系统的速度/精度权衡。虽然这已经被研究用于全图像分类(例如,[3]),但检测模型往往要复杂得多。我们主要研究单模型/单通道检测器,我们指的是不使用集成、多裁剪方法或其他“技巧”如水平翻转的模型。换句话说,我们只通过一个网络传递一个图像。为了简单起见(而且对于使用这项技术的用户来说更为重要),我们只关注测试时的性能,而不关注这些模型需要多长时间来训练。
尽管比较最近提出的每一种探测系统都是不切实际的,但幸运的是,许多最先进的方法在高水平上都集中在一种共同的方法上。这使得我们能够以统一的方式实现和比较大量的检测系统。特别是,我们创建faster R-CNN、R-FCN和SSD元架构的实现,它们都由一个单独的卷积网络组成,使用混合回归和分类目标进行训练,并使用滑动窗口式预测。
总而言之,我们的主要贡献如下:
(1)我们简要介绍了现代卷积检测系统,并描述了领先的卷积检测系统如何遵循非常相似的设计。
(2)我们描述了我们在Tensorflow中灵活和统一地实现三种元结构(fasterRCNN,R-FCN和SSD),我们用它做了广泛的实验,跟踪不同检测系统的精度/速度折衷曲线,变化的元结构,特征提取器,图像分辨率,等。
(3)我们的研究结果表明,使用较少的proposal,fasterR-CNN可以大大加快它的速度,而不会在准确性上有很大损失,使其与SSD和RFCN竞争。结果表明,SSD的性能对特征抽取器的质量的敏感度要低于fasterR-CNN和R-FCN。我们在精度/速度折衷曲线上确定了“最佳点”,只有牺牲速度(在我们的探测器系列中)才能提高精度。
(4)我们报告的一些元架构和特征提取器组合以前从未出现在文献中。我们将讨论如何使用这些新颖的组合来训练2016年COCO目标检测挑战赛的获奖模型。

二 卷积检测元结构

近年来,神经网络已成为高质量目标检测的主要方法。在本节中,我们将介绍一些本文献的亮点。Girshick等人的R-CNN论文。[11]是基于卷积网络的检测的第一个现代化算法模型。受最近在图像分类方面取得的成功的启发[20],R-CNN方法采用了直接的方法,即从输入图像中裁剪外部计算的方框建议,并在这些方框上运行神经网络分类器。然而,这种方法可能很昂贵,因为许多crop是必需的,这导致重叠crop的大量重复计算。Fast R-CNN[10]通过将整个图像通过特征提取器推理一次,然后从中间层裁剪,从而使裁剪分担了特征提取的计算量,从而缓解了这一问题。
虽然R-CNN和Fast R-CNN都依赖于外部的提议生成器,但最近的研究表明,使用神经网络也可以生成box提议[40、39、8、30]。在这些论文中,典型的做法是在图像的不同空间位置、比例和纵横比上叠加一组框作为“锚”(有时称为“优先框”或“默认框”)。然后训练一个模型为每个锚进行两个预测:(1)每个锚的离散类预测,以及(2)锚需要移动以适应地面真值边界框的偏移量的连续预测。
遵循这种锚定方法的论文然后最小化我们现在描述的组合分类和回归损失。对于每个锚,我们首先找到最佳匹配地真相框(如果存在的话)。如果能找到这样的匹配,我们称之为“正锚”,并给它(1)一个类标签ya∈{1…K}和(2)一个关于锚的box向量编码(称之为box编码)。如果找不到匹配项,则调用“负锚”,并将类标签设置为ya=0。如果对于锚,我们预测box编码(I;a,θ)和相应的类(I;a,θ&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值