论文翻译 | Bounding Box Regression with Uncertainty for Accurate Object Detection | FACE++ 2019

最新推荐文章于 2022-07-26 17:03:13 发布

樨潮

最新推荐文章于 2022-07-26 17:03:13 发布

阅读量279

点赞数 1

分类专栏：目标检测

目标检测专栏收录该内容

132 篇文章 9 订阅

订阅专栏

Bounding Box Regression with Uncertainty for Accurate Object Detectiom, 对精准目标检测的含不确定性的边界框回归转自https://blog.csdn.net/weixin_42662134/article/details/88967206

写在前面
摘要
引言
相关文献
方法
实验
结论

写在前面

之前我在开源中国，感觉对latex公式的不支持让我在输入公式的时候不舒服，就只能截图，但是影响整体观感。了解到CSDN支持公式，就来了这里。（都是废话，下面正文）

摘要

大尺度的目标检测数据集（如：MS-COCO）会试着将边界框框的非常清晰。但是，我们发现标注边界框的时候仍然有不确定性。本文中，我们提出了一种新的边界框回归损失，来同时学习边界框变换和定位差异。我们的损失在没有额外计算量的前提下，极大程度上提升了各种结构的定位精度。学到的定位偏差可以让我们用NMS来归并相邻的边界框，进一步提升了定位的准确性。在MS-COCO数据集上，我们将VGG-16 Faster R-CNN的AP从23.5%提升到了29.1%。而且，对于ResNet-50-FPN Mask R-CNN，我们的方法分别提高了AP和AP⁹⁰1.8%和6.2%，比其他sota的边界框微调的方法要更加出色。我们的代码和模型放在github.com/yihui-he/KL-Loss。
![图1](https://img-blog.csdnimg.cn/20190402115522578.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjY2MjEzNA==,size_16,color_FFFFFF,t_70#pic_center)
图1：在目标检测数据集中，ground-truth边界框在一些情况下存在固有的不确定性。边界框回归器会用我们的KL Loss来从不确定的边界框中获得更小的损失。(a)© 标注的不确定性。(b) 遮挡带来的不确定性。(d) 目标自身边界是不确定的。由于树的遮挡，火车的左边界是不清晰的。

引言

大尺度目标检测数据集，如ImageNet、MS-COCO、CrowdHuman，都会尽量把边界框标清晰。

但是我们发现边界框在有些情况下会不可避免的存在不确定性。不确定性会使标注和边界框回归函数的学习变得困难。MS-COCO中一些不精确的标注展示在图1(a)©中。当物体被部分遮挡了，边界将更加难以区分，比如图1(d)，来自YouTube-BoundingBoxes。

目标检测是一项多任务的学习问题，由目标定位和目标分类组成。当前最好的目标检测器（如：Faster R-CNN, Cascade R-CNN, Mask R-CNN）都依赖于边界框回归来定位目标。

然而，传统的边界框回归损失（如smooth L1 loss）并没有将边界框的不确定性考虑进去。而且边界框回归当分类分数很高的情况下被假定是准确的，但事实并不总是这样，如图2。
![图2](https://img-blog.csdnimg.cn/20190402120431817.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjY2MjEzNA==,size_16,color_FFFFFF,t_70#pic_center)
图2：VGG-16 Faster R-CNN在MS-COCO数据集上错误的案例。(a) 两个框都是不准的。(b) 分类分数高的边界框反而是错误的。

为了解决这个问题，我们提出了新的边界框回归损失，叫做KL Loss，旨在同时学习边界框回归和定位不确定性。具体来说，为了获得预测框的不确定性，我们首先为边界框预测和ground-truth框建模为高斯分布和狄拉克函数。接着定义了预测分布和真实分布的KL散度。采用KL Loss学习有三个好处：(1) 数据集中的不确定性可以被很好的捕获到，边界框回归器会从不确定边界框中计算出更小的损失；(2) 学习到的方差在后处理阶段非常有用。我们提出了方差投票(var voting)，在NMS阶段使用预测方差来加权候选框相邻的位置，最后得到投票出候选框的最终定位。(3) 学到的概率分布是可解释的，因为它反映了边界框预测的不确定度，可以对自动驾驶和机器人上的应用有潜在的帮助。

为了证明KL Loss和var voting的泛化能力，我们在PASCAL VOC2007、MS-COCO上验证了多种CNN目标检测器，包括VGG-CNN-M-1024、VGG-16、ResNet-50-FPN和Mask R-CNN。我们的实验表明了我们方法在目标定位上有更好的准确性。对于MS-COCO数据集上的VGG-16 Faster R-CNN我们将AP从23.6%提高到了29.1%，GPU（GTX 1080Ti）上前向预测时间仅增加了2ms。而且，对于ResNet-50-FPN Mask R-CNN，我们分别提高了AP和AP⁹⁰1.8%和6.2%，超越了目前最先进的边界框精调算法。