CVPR2019《Bounding Box Regression with Uncertainty for Accurate Object Detection》论文阅读

最新推荐文章于 2022-07-26 17:03:13 发布

just_sort

最新推荐文章于 2022-07-26 17:03:13 发布

阅读量542

点赞数

分类专栏：深度学习论文阅读及算法详解

本文链接：https://blog.csdn.net/just_sort/article/details/100696838

版权

深度学习论文阅读及算法详解专栏收录该内容

102 篇文章 36 订阅

订阅专栏

论文原文

https://arxiv.org/abs/1809.08545

论文题目的翻译

精确目标检测的不确定边界框回归

摘要

大规模的目标检测数据集(例如MS-COCO)在进行Ground Truth框标注时仍然存在歧义。这篇论文提出了新的边界框回归损失针对目标框的移动以及位置方差进行学习，这种方法在几乎不增加计算量的基础上提高不同结构定位的准确性。另一个关键点事，由于学习了bounding box的分布，可以将其应用在NMS阶段合并相邻目标框，进一步提升定位的准确性。代码可在github.com/yihui-he/KL-Loss找到。

介绍

$\quad$ 在大规模目标检测数据集中，一些场景下目标框的标注是存在歧义的，这种情况如果直接使用以前目标检测的边界框回归损失，也即是Smooth L1Loss会出现学习很不稳定，学习的损失函数大的问题。Figure 1展示了哪些场景可能存在目标框标注不准确的情况：
在这里插入图片描述 (a,c),，框的标记不准确。(b)由遮挡引起的歧义。©图片物体不完整，不明确物体的边界在哪里。
$\quad$ 目标检测包含分类以及定位，是一个多任务的学习问题。Faster R-CNN，Cascade R-CNN及Mask R-CNN依靠边界框回归来进行目标定位。
$\quad$ 然而，传统的边界框损失即Smooth L1损失并没有考虑到ground truth模糊的情形。一般来说，分类的分数越高，其边界框的回归应该更加准确，然而，这种情况不是总是发生，例如Figure 2所示:
在这里插入图片描述（a）两个候选框都是不准确的。大的过大，小的过小。
（b）具有较高分类分数的边界框的左边界是不准确。(颜色更容易观察)
$\quad$ 为了解决这些问题，论文提出了新的边界框损失函数-KL损失，可以同时学习边界框的回归以及定位的不准确性。特别的，为了捕捉边界框预测的不确定性，首先将边界框的预测以及ground truth框分别看做高斯分布函数和狄克拉分布函数。则新定义的回归损失可以看作是预测分布和真实分布之间的KL散度。我们知道KL有3个优点:（1）可以成功捕获数据集中的模糊。边界框回归器从模糊的边界框中获得较小的损失。（1）在后处理过程中，所学的方差是有用的。论文提出了VaR投票（方差投票）方法，即在非最大抑制（NMS）过程中，利用相邻位置的预测方差加权，对候选框的位置进行投票。(3)所学概率分布反映了边界框预测的不确定性水平。

方法

3.1 边界框参数化

基于双阶段的目标检测网络如Faster-RCNN，Mask R-CNN。网络结构如Figure 3所示:
在这里插入图片描述从图中看出，模型有3个分支，分别为Class代表图像的类别，Box代表预测的框，Box std是预测框的四个坐标(左上角和右下角两个点的四个坐标)与真实框之间的标准差，即坐标之间的距离。通过Box std计算得到的KL损失函数反向传播修改Box中的坐标点位置和预测框的大小。这里用 $(x 1, y 1, x 2, y 2)$ 代表预测边界框左上角和右下角的坐标。 $x_1^*,y_1^*,x_2^*,y_2^*)$ 表示真实的边界框左上角和右下角的坐标。 $x_{1a},x_{2a},y_{1a},y_{2a},w_a,h_a)$ 是Anchor。那么预测边界框和真实边界框分别与Anchor的偏差如公式1所示：
在这里插入图片描述同样，不带 $*$ 号的t表示预测边框与Anchor的偏差，带 $*$ 号的t表示真实边框和Anchor的偏差。
论文的重点在于评估位置的置信度。所以，论文在预测边界框位置的基础上又预测了一个位置的分布，这里假设坐标是独立的，为了简单起见，使用了单变量的高斯函数，如公式2所示：
在这里插入图片描述
式子中边界框坐标表示为 $x$ ，因为我们可以独立地优化每个坐标， $\Theta$ 是一组可以学习的参数， $x_e$ 是我们预测的边界框的位置。标准差 $\sigma$ 测量估计的不确定度。当 $\sigma$ ->0时，表示网络对估计的位置非常有信心。地面真实边界框也可以表示为高斯分布，由于是真实的框，我们让 $\sigma$ ->0，这就变成了狄克拉函数，如公式(3)所示:
在这里插入图片描述
其中 $x_g$ 是地面真实边界框信息。
关于迪克拉函数的解释:https://baike.baidu.com/item/%E7%8B%84%E6%8B%89%E5%85%8B%CE%B4%E5%87%BD%E6%95%B0/5760582

基于KL损失的边界框回归

论文目标定位的目标是通过在N个样本最小化 $P_\Theta(x)$ 和 $P_D(x)$ 之间的KL散度来评估 $\hat{\Theta}$ ，如公式(4)所示:
在这里插入图片描述
使用KL散度作为边界框回归的损失函数Lreg。分类损失Lcls保持不变。对于单个样本，有公式5：

公式使用分步积分展开得到。我们来观察一下Figure 4：
图中，蓝色和灰色的高斯分布是我们的估计。橙色中的dirac delta函数是地面真值边界框的分布。当位置 $x_e$ 估计不准确时，我们期望网络能够预测更大的方差 $\sigma^2$ ，从而使Lreg更低（蓝色）。
从公式可以得出， $\frac{log2\pi}{2}$ 和 $H(P_D(x))$ 不依赖于估计参数 $\Theta$ ，所以有公式(6)：
在这里插入图片描述
特殊的，当 $\sigma=1$ 时，KL损失退化为标准欧几里得损失:

损失函数是可微的，对于 $x_e$ 和 $\sigma$ 分别求偏导如公式(8)所示:

然而，由于 $\sigma$ 是分母，有时会在训练开始时梯度爆炸。为了避免梯度爆炸，网络在实际中预测 $\alpha=log(\sigma^2)$ 而不是 $\sigma$ 。如公式9所示：
在这里插入图片描述
在测试过程中我们将 $\alpha$ 转回 $\sigma$ 。
对于 |xg−xe|>1，我们采用类似于fast R-CNN中定义的Smooth L1 的损失。最后回归损失函数定义为公式10：

用随机高斯分布对FC层进行初始化，标准偏差及均值分别设置为0.0001及0,因此，KL损失在训练的刚开始时与smooth L1损失相似。

3.3 方差投票

在得到预测位置的方差后，根据已知的相邻边界框的方差对候选边界框位置进行投票。如Algorithm1所示，用三行代码更改NMS，实际上这里为soft nms：
在这里插入图片描述可以看到，这里不仅使用了softnms，使得同一类靠很近的目标漏检降低，还提出了var voting思想。即对于iou大于阈值的那些boxes，可以通过他们各自学到的方差(box的一对角点 $x 1, y 1, x 2, y 2$ ，四个值的方差 $δx_1, δy_1, δx_2, δy_2$ 加权以更新box坐标，使得定位更准。新坐标的计算方式如Figure 11所示：
在这里插入图片描述
$\delta_t$ 是变量表决的可调参数。当 $I O U (b i, b)$ 越大，pi越大，即"距离"越近或交并比越大的两个框产生的pi值越大。对剩下的3个坐标值也进行同样的操作。以下两种类型的相邻边界框在投票时会得到较低的权重：（1）方差较大的框。（2）带有所选框的小IOU的框。分类分数不参与投票，因为得分较低的框可能具有较高的信心。在Figure 5中，提供了方差投票的可视化说明。通过表决，有时可以避免Figure 2中前面提到的导致检测失败的两种情况。
在这里插入图片描述

实验

统计目标检测模型中每个损失对于MS-COCO数据集的表现。基本的模型baseline是VGG16做backbone的Faster RCNN，也就是下Table1 第一行。
在这里插入图片描述 推理时间比较见表2:
表3展示了Fast-RCNN网络的不同Head和backbone使用KL损失获得的AP值提升。
表4比较了使用了论文中的不同方法在MS-COCO上获得的精度提升。
Figure6测试了可调参数 $\sigma_t$ 对于方差投票的影响。当 $\sigma_t=0$ ，方差投票未被激活。我们看到 $AP^{75},AP^{80},AP^{90}$ 都被 $\sigma_t$ 所影响。 $AP^{50}$ 对 $\sigma_t$ 不太敏感。本文在所有实验中都取了 $\sigma_t=0.02$ 。
在这里插入图片描述 Table5测试了在PASCAL VOC 2007数据集上Faster-RCNN的表现，实验了本文的各种方法。
Table6 测试了使用ResNet-50做backbone,RPN网络做候选框提取的Faster-RCNN在MS-COCO数据及上应用我们的KL损失以及var vaoting,soft-nms等方法进行测试的结果。
在这里插入图片描述

结论

综上所述，大规模目标检测数据集中的不确定性会阻碍最先进的目标检测设备的性能。分类置信度并不总是与本地化置信度密切相关。本文提出了一种新的具有不确定性的边界盒回归损失方法，用于学习更精确的目标定位。通过训练KL损失，网络学习预测每个坐标的定位方差。由此产生的差异使方差投票成为可能，它可以通过投票来优化选定的边界框。在MS-COCO和Pascal VOC 2007上，vgg-16 Fast r-cnn、resnet-50 fpn和mask r-cnn上得到了令人信服的结果。

参考博客

https://www.cnblogs.com/fourmi/p/10721791.html
https://blog.csdn.net/u012839256/article/details/89005963
https://cloud.tencent.com/developer/article/1420811