POD论文:AugPOD: Augmentation-oriented Probabilistic Object Detection

The Robotic Vision Probabilistic Object Detection Challenge
A CVPR 2019 Workshop – Long Beach, 17 June 2019

Contributed Talk (1st place): AugPOD: Augmentation-oriented Probabilistic Object Detection. Chuan-Wei Wang, Chin-An Cheng, Ching-Ju Cheng, Hou-Ning Hu, Hung-Kuo Chu, Min Sun.

Abstract

概率目标检测(POD)旨在测量目标检测器的空间和标签不确定性(spatial and label uncertainty)。不确定性测量在机器人应用中非常重要,因为错误但高度自信的感知触发的动作会导致灾难性的结果。我们提出了AugPOD SOTA模型,包括i)MC dropout;ii)Gamma Correction iii)Virtual Dataset Collection。实验研究表明,我们的方法优于所有参与竞赛的模型,得分为22.563,比原始的Mask R-CNN提高了2.72倍。

1. Introduction

机器人视觉是装备机器人实现更高功能的一项重要技术。在各种应用领域,如工厂或家庭,周围的信息可以为机器人提供重要的线索,使它们更准确、更有效地完成任务。随着近年来深度神经网络的发展,许多工作将目标检测算法应用到机器人视觉中。尽管目标检测模型可以在几个数据集上实现高平均精度(AP),例如MS COCO[7]和Pascal VOC[4],但它在现实世界场景中仍然会遇到许多失败的情况。此外,机器人视觉系统还需要在不同亮度和环境条件下的各种环境中很好地推广。
概率目标检测挑战[12]提出了一个新的度量和数据集,它对应于以前的问题。与标准的基于概率的测量相比,基于概率的检测质量(PDQ)得分[5]测量空间和标签的不确定性。此外,数据集包含各种亮度和不同的环境条件。
在这项工作中,我们提出了由3种不同的技术来解决前面提到的问题。基于概率目标检测,我们在不同的检测模型上应用了[9],包括Faster R-CNN[11),Mask R-CNN[6),Cascade Mask R-CNN[3]和混合任务级联[3]来测量bounding box的不确定性。为了泛化,我们应用伽马校正和数据增强来处理白天和晚上亮度的大变化。此外,我们还收集了基于UnrealCV Engine [10]增加周围条件的丰富性。结果,我们证明AugPOD达到了22.563的分数,在竞赛中排名第一,并改进了原来的MASK R-CNN的2.72倍。
在这里插入图片描述

2. Methods

在这一部分,我们描述了我们在机器人视觉挑战[12]中使用的方法。
它分为四个部分:
Detection Model
Gamma Correction
Monte Carlo Dropout Estimation
External Data Collection

2.1 Detection Model

对于目标检测任务,有两种类型的框架,包括单级检测器和多级检测器。虽然多级检测器的推理速度比单级检测器慢得多,但它们通常比其他检测器达到更高的精度。此外,一些工作利用分割信息来提高目标检测的性能。根据之前的观察,我们选择了以下四种模式。第一个是Faster R-CNN [11],该模型通过Region Proposal Network和ROI池对目标的边界盒进行回归。第二个是Mask CNN[6],他们提出了ROI调整和机制,估计segmentation和bounding boxes同时获得更好的性能。第三部是根据Cascade Mask R-CNN。它在Mask R-CNN后级联三个模块,包括特征提取、包围盒回归和分类。最后一种是Hybrid Task Cascade(混合任务级联)[3]模型,它将bounding box回归和mask估计交织在一起,将附加语义信息融合到bounding box分支和mask分支中。我们在实验部分使用了上述模型。

2.2。Gamma Correction
在检查数据集之后,我们发现图像的亮度是不同的,这导致目标检测失败。这是因为验证和测试集中一半的图像是在夜间场景中收集的。相比之下,MS COCO[7]数据集的图像大多是在明亮的条件下拍摄的。解决这个问题的一种方法是在训练过程中增加随机亮度数据。然而,对于一个模型来说,仍然很难了解目标外观分布的巨大差异。另一种方法是增加测试图像的亮度。伽马校正是一种非线性操作,用于增加每个像素的值。
V o u t = A V i n γ V_out = AV_in^\gamma Vout=AVinγ
2.3。Monte Carlo Dropout Estimation
对于概率目标检测,估计预测包围盒的概率分布是至关重要的。在[5]中,他们用B = (N0,N1) = (N( 0,σ0)),N( 1,σ1))表示了一个边界框,其中I和σI是描述框的左上角和右下角的多元高斯分布的均值和协方差。然而,目前大多数流行的目标检测方法都是非概率。一个简单的方法是像先前采用固定协方差估计的预测角落。然而,使用固定协方差对于模型推广和跨域评估是不现实的。取而代之的是,MC,Dropout SSD[9]比较不同的合并策略,以衡量不确定性的目标检测模型(SSD)。基于他们的一种称为基本序列算法方案(BSAS)的聚类方法,我们对其进行了修改,并采用了以下算法1。这里我们设置K = 20,α = 0.75,β = 0.005。图2显示了在MASK R-CNN上应用算法1后的示例。
在这里插入图片描述
在这里插入图片描述
2.4。External Data Collection
由于这次挑战[12]没有提供任何训练数据,并且对外部数据的使用也没有限制,因此我们基于UnrealCV Engine[10]收集了一个外部虚拟数据集。我们用现有的环境MS COCO[7]类别的30个子类来构建室内场景。在本次挑战[12]的数据集中,根据不同的摄像机高度设置,我们收集了自己的训练数据,包括高、中、低三种不同的高度。我们的外部数据示例如图4所示。我们的数据集包括具有物体检测和分割掩模的基础事实的10K图像,其可在以下位置获得: https://drive.google.com/drive/folders/13GBbYsEXu3SOAjVMv6UxK7_xxAvzSOuB

3. Experiments

3.1. Dataset and Metric

在这里,我们使用由CVPR 2019年概率目标检测挑战[12]组织者提供的MS COCO[7]数据集和验证集和2.4节中提到的外部数据组。评估指标遵循基于概率的检测质量(PDQ)评分[5]。PDQ分数包含空间质量和标签质量,以准确估计空间和标签不确定性。

3.2. Implementation Details

我们在最后一个完全连通的层上用新的30个代替了80个类。该模型在单个NVIDIA GeForce GTX 1080Ti上进行训练,批量为2,学习率为0.001,在14万次迭代中降低了10。我们采用了0.0001的重量衰减和0.9的动量。此外,我们加入了[7]和我们自己的数据集,并在训练过程中应用了数据增强,包括高斯噪声和亮度。在推理过程中,我们将置信度阈值设置为0.3。如果预测的概率大于置信阈值,输出概率将被设置为1.0,以增加标签质量分数。

3.3. Ablation Study
3.3.1 Detection Model
如表1所示,我们比较了挑战组织者提供的验证集上的四种流行的目标检测模型。所有这些都是在没有任何微调和协方差矩阵的情况下,在MS COCO[7]上预先训练的。我们发现,趋势表现在验证集类似于MS COCO[7]数据集的性能趋势。以可变形卷积网络为骨干的先进混合任务级联[3]仍然优于其他模型。但正如SOTA 模型Hybrid Task Cascade [3]一文中提到的,他们使用16个图形处理器,训练20个时代。由于时间和资源的限制,我们选择了CNN。
3.3.2 Gamma Correction
为了评估前面第2.2节中提到的伽马校正程序的效果,我们比较了级联屏蔽[3]和混合任务级联[3]在没有微调和使用零协方差矩阵的情况下对验证集的影响。结果如表2所示,应用伽马校正程序后,两种模型的性能都有显著提高。
3.3.3 MC Dropout
我们通过3种不同的协方差矩阵设置,包括无协方差矩阵、固定协方差矩阵和[9]在验证集上比较了Mask R-CNN。首先,与没有固定协方差矩阵的模型相比,固定协方差矩阵极大地提高了总体得分,并且提供了几乎两倍的平均空间质量。不幸的是,很难手动搜索最佳协方差矩阵。因此,我们应用了第1节中提到的[9]程序。因此,在不进行手动超参数搜索的情况下,MC Dropout提供了显著的性能增益。结果如表3所示。然而,最大类间方差的主要缺点是,随着采样次数的增加,计算时间会急剧增加。
3.4。Final Results
表4是我们提交的最高分。Aug-POD是基于CNN[6]架构,在MS COCO[7]和我们的虚拟数据集上联合训练了87500个steps,然后用伽马校正程序在测试集上进行推理。最终得分是22.56。由于时间有限,我们的最终结果不适用MC dropout[9],而是使用固定的协方差矩阵。

4. Conclusion

总之,在概率目标检测挑战中,我们在几个目标检测模型上展示了具有MC dropout、gamma correction和Virtual Dataset collection的Aug POD。我们的AugPOD成功地测量了目标边界框的不确定性,并在大范围的环境变化中进行了推广。
为了教机器人更好地估计空间和语义的不确定性,我们未来的工作将集中在物体级的SLAM上,以建立三维地图和定位物体的位置,用于进一步的操作任务。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

References

[1] Z. Cai and N. Vasconcelos. Cascade r-cnn: Delving into high quality object detection. CVPR, 2018. 1, 2
[2] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, Chen Change Loy, and Dahua Lin. mmdetection. https://github.com/open-mmlab/mmdetection, 2018. 3
[3] K. Chen, J. Pang, J. Wang, Y. Xiong, X. Li, S. Sun, W. Feng, Z. Liu, J. Shi, W. Ouyang, C. C. Loy, and D. Lin. Hybrid task cascade for instance segmentation. CVPR, 2019. 1, 2, 3, 4
[4] M. Everingham, L. V. Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International Journal of Computer Vision, 2010. 1
[5] D. Hall, F. Dayoub, J. Skinner, H. Zhang, D. Miller, P. Corke, G. Carneiro, A. Angelova, and N. Snderhauf. Probabilistic object detection: Definition and evaluation. arxiv, 2018. 1, 2
[6] K. He, G. Gkioxari, P. Dollr, and R. Girshick. Mask r-cnn. CVPR, 2018. 1, 2, 3, 4
[7] T. Y. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D. Ramanan, C. L. Zitnick, and P. Dollr. Microsoft coco: Common objects in context. ECCV, 2014.1, 2, 3
[8] Massa, Francisco, Girshick, and Ross. maskrcnnbenchmark: Fast, modular reference implementation of Instance Segmentation and Object Detection algorithms in PyTorch. https://github.com/facebookresearch/maskrcnn-benchmark, 2018. Accessed: [Insert date here]. 2
[9] D. Miller, F. Dayoub, M. Milford, and N. Sunderhauf. Evaluating merging strategies for sampling-based uncertainty techniques in object detection. ICRA, 2019. 1, 2, 3
[10] W. Qiu, F. Zhong, Y. Zhang, S. Qiao, Z. Xiao, T. S. Kim, Y. Wang, and A. Yuille. Unrealcv: Virtual worlds for computer vision. ACM Multimedia Open Source Software Competition, 2017. 1, 2
[11] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. NIPS, 2015. 1, 2, 4
[12] J. Skinner, D. Hall, H. Zhang, F. Dayoub, and N. Snderhauf. The probabilistic object detection challenge. arxiv, 2019.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值