ECCV2020 AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling论文翻译

论文地址:AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling

摘要

大部分SOTA的目标检测系统主要采取anchor-based方法,anchor box在图像上被密集地提出,并训练网络来预测anchor box的位置偏移和分类置信度。现有系统预先定义anchor box的形状和大小,并使用特别的启发式调整来定义anchor的配置。然而,当采用一个新的数据集或是新的模型的时候,这不是最佳的或者甚至是错的。在这篇论文里,研究了目标检测anchor box自动优化问题。我们首先证明anchor box的数量,大小尺度,长宽比是一个合理的目标检测系统中重要的因素。通过仔细分析特征层次上已有的边界框模式,设计了一个灵活、紧凑的anchor配置的超参数空间。然后我们提出一个新的超参数优化方法AABO来为某个数据集确定更合适的anchor,将贝叶斯优化和子抽样方法相结合,实现了精确高效的anchor配置优化。实验证明我们提出方法在不同数据集和检测器上的有效性,在COCO、ADE和VG上分别实现了2.4%、1.6%和1.5%的mAP改进,通过优化anchor配置,最佳的anchors可以为SOTA检测器带来1.4%、2.4%的mAP改进,例如mask R-CNN从40.3%提高到42.3%,HTC检测器从46.8%提高到48.2%。

1.介绍

目标检测是许多计算机视觉任务的基础和核心问题,广泛应用于自动驾驶车辆[4]、监控摄像头[22]、人脸识别[2]等等。目标检测的目的是识别目标的位置和预测图像中相关的类标签。近年来,深度卷积神经网络在目标检测任务方面取得了显著进展[21,26,28,18]。在大部分基于深度学习的检测技术中,anchor box是最基础的部件,作为目标边界框的初始建议。具体的说,在特征图上均匀采样一组具有预定义尺度和纵横比的密集分布锚点,然后使用神经网络预测锚点的形状偏移量和位置偏移量以及分类置信度。
虽然锚的配置是神经网络相当关键的超参数,锚的设计总是遵循直接的策略,如手工制作或使用统计方法,如聚类。拿一些广泛使用的检测框架作为例子,Faster R-CNN[28]使用3个尺度(1282、2562、5122)和3个长宽比(1:1、1:2、2:1)的预定义锚定形状,YOLOv2[27]通过对边界盒的ground-truth进行k-means聚类来建模锚定形状。当检测器扩展到一个新的特定问题时,锚定配置必须手动修改以适应这个新域的特性和分布,这是困难和低效的,可能不是检测器的最佳

虽然人工确定超参数是不合理的,但近年来超参数优化(HPO)问题得到了很大的发展,提出了大量的超参数优化方法。最有效的方法包括贝叶斯优化(BO)和Bandit-based的策略。BO按照三个步骤优化迭代:a)选择采集函数最大化的点;b)评估目标函数;c)在数据中加入新的观测值并重新训练模型,为在资源充足的情况下选择有前景的超参数提供了一种有效的方法。与BO不同,Bandit-based的提出是为有效地测量超参数的性能。其中,Hyperband[17] (HB)利用在更小的预算上的廉价评估获取函数的近似,内循环则进行Successive Halving算法,以确定n个随机采样配置中最好的。[10]中引入的Bayesian Optimization and Hyperband(BOHB)结合了这两种方法来处理HPO搜索空间很大的问题,被认为是一种非常先进的HPO方法。然而,BOHB不太适合我们的anchor优化问题,由于适用于小目标的锚点往往难以收敛,因此可以通过SuccesiveHalving算法来优化会提前停止和放弃最优的锚点配置。

在这篇论文,我们提出了一个自适应的anchor box优化方法AABO来自动的发现最佳的anchor配置,充分发挥了现在的目标检测器的潜力。具体来说,我们将说明锚点配置(例如锚点的数量、锚点的比例和高宽比)是目标检测器的关键因素,并展示适当的锚点盒可以提高目标检测系统的性能。然后证明锚点的形状和分布在不同的特征图上有明显的差异,所以在所有这些特征图中共享相同的锚点设置是不合理的。因此,在对已有数据集中边界框的分布和模式进行细致分析的基础上,设计了一个紧凑的、自适应的特征图金字塔搜索空间,充分利用搜索资源。在对锚点搜索空间进行优化后,提出了一种结合贝叶斯优化和子采样方法优点的超参数优化方法。和现存的HPO方法作比较,我们提出的方法使用子采样方法尽可能准确地来估计采集函数,并在配置有可能成为最佳配置的情况下,给予配置更多的预算,以确保有前景的配置不会过早被丢弃。 因此,我们的方法可以利用有限的计算资源,有效地为特定的数据集确定更合适的锚盒,并取得比以往的随机搜索和BOHB等HPO方法更好的性能。
我们进行了大量的实验来证明我们提出的方法的有效性。在多个基准测试中,可以观察到默认锚配置的显著改进。特别的,AABO只改变锚配置在coco,ADE和VG分别实现了2.4%,1.6%和1.5%的提升, 并持续改善SOTA检测器1.4% - 2.4%的性能, 如提高mask R-CNN[11]从40.3%到42.3%,HTC[7]从46.8%到48.2%的mAP。

2.相关工作

Anchor-Based目标检测. 现代基于CNN的目标检测管道可以分为两类:一类是SSD[21]和YOLOv2[27],另一类是Faster R-CNN[28]和RFCN[9]。这些方法中的大多数都利用了大量密集分布的锚框。简而言之,那些现代的探测器将锚盒作为图像中物体的边界框的初始参考。这些方法中的锚点形状通常由人工选择[21,28,9]或单纯的聚类方法[27]确定。与传统方法不同的是,有几项研究致力于更有效地利用锚点[32,34]。MetaAnchor[32]引入了元学习来生成锚,它使用一个额外的神经网络来建模锚,并根据定制的先验来计算锚。然而,网络变得更加复杂。钟等人在训练中尝试通过基于梯度的方法来学习锚点形状,而连续放松可能并不合适。
超参数优化(HPO). 虽然深度学习在广泛的领域取得了巨大的成功,但深度学习模型的性能在很大程度上依赖于许多内部超参数的正确设置,这就需要对超参数优化(HPO)问题进行有效而实际的解决。贝叶斯优化(BO)已成功地应用于许多HPO工作中。例如,[30]利用BO搜索卷积神经网络的最优超参数,在CIFAR10上获得了最先进的性能。[23]在2016 AutoML挑战赛中通过BO方法自动找到合适的架构和超参数,在3个数据集上获胜。虽然BO方法在理论上可以收敛到最优配置,但他需要大量的资源,通常计算成本很高。与贝叶斯方法相比,基于随机搜索的基于band的配置评估方法,如Hyperband[17],可以动态分配资源,并利用[14]的SuccessiveHalving来阻止性能较差的配置。近年来,人们提出了一些将贝叶斯优化与Hyperband相结合的算法,如BOHB[10]算法,该算法既能获得较强的性能,又能快速收敛到最优配置。其他已被提出的非参数方法包括渐近贪心和波耳兹曼探索[31]。[5]给出了一个有效的非参数解,并证明了该策略的最优有效性。但是,这些先进的HPO方法存在BO计算量大、BOHB早停等问题。

3.提出的方法

3.1 初步分析

如前所述,主流检测器,包括one-stage和two-stage检测器,都依赖锚点来提供对物体边界框的初步猜测。大多数检测器都是预先定义锚点,并在应用到新数据集时手动修改锚点。我们认为,这些人工方法很难找到最优的锚点配置,次优的锚点将阻碍检测器获得最优性能。为了证实这一假设,我们建立了两个初步实验。
默认的anchor不是最优的. 我们随机抽取100组不同的锚定设置,每组有3个尺度和3个比率。然后我们研究了这些锚定配置下的Faster-RCNN[28]的性能。结果如图1所示。可以看出,与默认的锚定设置(1282、2562、5122和3个长宽比1:1、1:2、2:1)相比,随机采样的锚定设置对检测器的性能有显著影响,证明了默认的anchor设定可能不太合适,并且需要对锚点进行优化。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值