论文记录:Probabilistic Object Detection via Staged Non-Suppression Ensembling

TeamGL at ACRV Robotic Vision Challenge 1:
Probabilistic Object Detection via Staged Non-Suppression Ensembling

The Robotic Vision Probabilistic Object Detection Challenge
A CVPR 2019 Workshop – Long Beach, 17 June 2019

Contributed Talk (3rd place): Probabilistic Object Detection via Staged Non-Suppression Ensembling. Dongxu Li, Chenchen Xu, Yang Liu, Zhenyue Qin.

Abstract

本文描述了利用ensemble技术进行POD的新方法。该方法综合来自多个非概率object detectors的结果,以获得最终结果。我们通过两阶段pipeline来实现这一点:(i)利用贪婪分配过程,基于并集上的交集(IoU)和标签来识别相同目标的检测;(ii)使用非抑制算法创建检测的集合。我们采用固定的比例和基于标记置信度的协方差来捕捉边缘目标上特定校准的空间不确定性,边缘目标是一种特殊但常见的检测类别。在2019年CVPR ACRV机器人视觉挑战概率目标检测排行榜上,该方法获得了第三名。

1. Introduction

目标检测一直是机器人学和计算机视觉研究中的一个重要课题。这样的任务旨在赋予机器人或自治系统在操作环境中识别和定位目标的能力。当前SOTA的工作通过预测包围该目标的边界框(bounding boxes)或多边形(polytopes)的位置以及描述该目标是什么的类标签来解决OD问题。此外,通常计算分数以显示对目标位置和/或分类结果的置信度。

尽管已有OD,概率目标检测(POD) 的任务以一种新的用于目标定位的更细粒度的像素级测量为特征,它与标签置信度测量一起建立了一种新的用于目标检测的评估方案,称为PDQ(Probability-based Detection Quality)。与现有的基于平均精度(AP)的度量相比,PDQ采用了概率的观点,并且奖励detectors,其更好地量化检测的空间和语义不确定性(spatial & semantic uncertainties)。这种扩展可以通过提供可信的检测来促进与人类和环境交互操作的机器人系统的发展。

ACRV机器人视觉挑战1 在类似于家庭场景的数据集上提供POD任务,例如车库、办公室、卧室。这是特别有趣的,不仅因为估计空间和语义不确定性的问题本身还未被探索,而且还因为与大多数现有的目标检测数据集有很大不同的场景。场景的这种变化对在其他数据集上测试的目标检测器的泛化能力提出了挑战。事实上,我们发现新数据集上的模型可能有所不同,这就导致了集成方法。集成模型是深度学习中最广泛使用的技术之一。它们的流行主要归因于与组成算法相比更好的预测性能。尽管应用广泛,但合适的集成策略是依赖于任务的。也就是说,人们需要仔细设计装配方案,例如利用不同算法的优势,并利用它们来进行补偿,而不是相互干扰。

我们方法的主要组成部分有三个方面:
我们提出了一种非抑制集成方案,它提高了目标检测系统的性能;
我们使用与检测规模成比例的协方差来估计目标检测的空间不确定性。
我们对边缘检测进行进一步校准,以改进空间不确定性估计。

论文的其余部分组织如下。我们在第2节中介绍了这些方法。在第3节中,我们报告并分析实验结果。最后总结并讨论了可能的进一步工作。

2.Our Approach

在这一节中,我们描述了组成我们的集成框架的主要组件。我们首先解释第2.1节中的数据预处理和测试时间增加步骤。然后,我们在第2.2-2.3节中介绍了一种创建检测组件的方法。最后,我们描述了在第2.3节中空间不确定性。图2展示了我们框架的概述。

2.1. Data Preprocessing

我们的预处理和数据增强步骤如下。
标准化图像 ACRV挑战数据集是跨多个不同环境和时间生成的。图像背景环境中的这种类型的变化是多样的,并且在其他目标检测数据集中不太具有针对性,例如MS-COCO,其中数据收集过程隐含地限制了图像源的光谱。在图1中,我们展示了验证集的图像。可以看出,场景是在相当弱的光照条件下拍摄的,这使得即使对人类来说也很难识别目标。我们将图像增强方法应用于验证和测试集来处理它。如果图像的平均灰度低于预定义的阈值,则会增强图像。

数据增强 正如多项现有工作所建议的那样,为了减轻数据示例的局限性,我们采用了数据增强技术。考虑到速度因素,我们通过固定的数据增强过程应用了所有图像,并将结果保存下来,以便稍后进行微调和推理工作。特别是,水平翻转和随机裁剪增强被集成在一起。

在这里插入图片描述

2.2. First level models

检测框架的第一部分是基本模型,它们构成了我们基于集成的方法的基础。为了获得多样化的预测结果,我们对现有的几个不同类别的模型进行了实验,例如单阶段/两阶段、基于锚点/无锚点的模型。每个模型的初始化都使用MS-COCO数据集上预先训练的权重。他们在ACRV挑战的验证集上进行评估,具有固定的协方差35。我们总结了5个最佳的模型如表1所示。

在这里插入图片描述

尽管存在COCO和ACRV数据集之间的差异,但我们的初步研究表明,对于可能的情况,预测边界框的定位仍然是令人满意的。因此,对选定的模型进行了进一步的微调,但仅限于根据ACRV挑战提供的验证数据进行类别标签预测。在集成过程中,我们测试每个模型的两个版本,分别经过微调和预先训练。

2.3. Staged Non-suppression Ensembling

在本节中,我们将介绍在挑战中使用的非抑制性集成(NSE)方法。我们求助于集成方法的主要驱动力是观察到不同目标类的检测性能在方法上不同。例如,在“wine glass”类中,YOLO的召回率得分高于 RetinaNet,而 RetinaNet在“sink”和“clock”类中的召回率更高。所提出的方法包括两个阶段:重复匹配和非抑制合并(duplicates matching and non-suppression merging),我们将在下面解释。

Duplicates matching
当多个算法成功检测到同一目标时,必须处理重复项以避免误检。为此,需要一个初步的程序来识别这种可能的重复。我们注意到,当评估目标检测系统的性能时,算法被用来匹配检测目标对。为了我们的目的,我们扩展了这个想法。具体来说,我们迭代来自每个模型的检测,并且将检测分组,这些检测(I)共享相同的label;(ii)由预定的IoU阈值确定的彼此overlap。然后,我们将每个组中的检测分配给同一个目标。我们注意到我们的匹配策略在IoU分数方面是贪婪的。

Non-suppression Merging
非抑制合并对于未分组的独立检测,我们直接将它们添加到组件中。对于成组的检测(grouped detections),我们期望一个将组减少到单个检测(single detection)的过程。一个相关的问题的setup是目标检测方法中常见的后处理步骤(post-process step),其中需要非最大抑制或其变体来去除与最有把握的框(ROIs)显著重叠的区域。然而,这并不符合我们充分利用多种模型结果来校准检测的目标。另一方面,消除low confidence检测也可以通过在ensemble之前对检测器进行阈值处理(threshold)来实现。因此,我们朝着相反的方向前进,保持所有结果不受抑制。然后,我们对检测组进行平均,以获得合成检测盒。通过应用加权术语来奖励/惩罚不同的检测来扩展非抑制合并也是可能的。我们简要概述了算法1中的集成方法。我们迭代不同方法的检测(第3-7行),并根据iou分数找到匹配的检测。第8-10行对检测结果进行平均,以创建最终的ensemble。

在这里插入图片描述

2.4. Handling Spatial Uncertainties

尽管当前模型能够以令人满意的准确度识别目标,但是针对该挑战采用的PDQ分数也测量生成的包围盒的质量。除了直接改进包围盒预测,PDQ惩罚低空间不确定性的错误定位。更准确地说,POD算法需要在边界框的每一侧提供协方差值,以生成概率热图(也称为概率边界框)。我们总结了预测这些协方差值的两种测试方法。

Proportional covariances
因为PDQ分数意味着像素中最可靠的空间不确定性,直观地对大目标的检测更有可能导致不精确的定位。因此,我们将检测规模乘以一个预定义的比例,该比例用作高斯分布的标准差。我们还假设目标的水平和垂直位置之间没有相关性,因此将协方差矩阵指定为对角矩阵。我们观察到大约6%的比例给出了数据集的最佳空间分数。

Confidence based covariances
在我们的实验中,我们用下面的启发式方法接近它。将地面真实边界框和预测边界框分别表示为 B B o x g t BBox_{gt} BBoxgt B B o x p r e d BBox_{pred} BBoxpred,近似最优协方差矩阵Cov = [Cov1,Cov2]计算如下:
增加概率包围盒和基本真实包围盒之间的重叠。然后,我们在验证集的所有检测上检查这些近似Cov,并对主对角线上每个元素和每个类的分布的经验估计。
初始验证结果显示相对简单的比例协方差有更好的性能,因此由于测试机会有限,它是我们提交的唯一采用和测试的结果。我们将基于置信度协方差的不太令人满意的结果归因于对控制因子α的微调工作不足。

在这里插入图片描述

2.5. Edging Object

当边界框被预测为靠近图像边界时,我们注意到模型在区分部分观察(目标的一部分位于视图之外)和位于边界附近的实际目标时变得不太可靠。直观地说,如果发现一个目标可能是部分匹配的,我们可以安全地提高它在图像边界旁边的预先确定的边界框的置信度。
如果边界框的任何一边距离图像边界只有0到2个像素,我们会找到所有的预测,并过滤掉所有的小检测(对于不大可能形成部分匹配的小目标的启发式测量)。对于那些剩下的,我们使用折衷的方法,将盒子精确到离边界1个像素,并给它附加一个相对较小的Cov,而不是将Cov降低到易于过分自信的0。我们的实验表明,这一修正给总体PDQ分数带来了大约0.5的一致增加。

在这里插入图片描述

3. Results

我们在验证集上验证了所提出的集成方法的有效性由Figure 3看出。
比例协方差和边缘目标的固定都有助于提高空间质量。同样值得注意的是,在这种情况下,TP会降低,这是合理的,因为更紧凑的空间估计可能会有丢失真正的检测目标匹配的风险。然而,总的PDQ分数仍然上升,这证明了方法的有效性。
表2总结了公共验证集和私有测试集的最终结果。从表中,我们有以下观察结果。
与表1中的单模型方法相比,NSE显著提高了PDQ得分。这表明我们提出的ensemble成功地结合了真阳性实例,同时适当地控制了假阴性实例的数量。
比例协方差和边缘目标的固定都有助于提高空间质量。同样值得注意的是,在这种情况下,TP会降低,这是合理的,因为更紧凑的空间估计可能会有丢失真正的检测目标匹配的风险。然而,总的PDQ分数仍然上升,这证明了方法的有效性。
测试集的PDQ分数略高于验证集。这并不太令人惊讶,因为ACRV数据集在验证和测试集上展现了截然不同的场景和目标分布。尽管调整验证有助于我们更好地理解参数的影响,但这两组结果之间几乎没有直接的因果关系。

在这里插入图片描述

4. Conclusion

在本文中,我们描述了我们在ACRV机器人视觉挑战1的子任务中使用的方法。我们提出非抑制集合来整合多个基础非概率模型,以改善模型预测的多样性。还进行了调查以精确校准边界框中的不确定性。因此,我们能够应对这场竞赛带来的一些新挑战,并在最终的排行榜上取得可喜的成绩。
至于未来,可以通过整合序列数据中隐含的时间信息来改进基本模型的性能。我们还设想将概率包围盒的度量公式化为一个学习问题,以便模型可以被训练来预测它。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值