【3D目标检测】基于伪雷达点云的单目３Ｄ目标检测方法研宄

可乐大牛

已于 2023-02-12 16:50:09 修改

阅读量1.4k

点赞数

分类专栏：论文学习文章标签：目标检测 3d 计算机视觉

于 2023-02-10 14:03:41 首次发布

本文链接：https://blog.csdn.net/qq_44173974/article/details/128968393

版权

论文学习专栏收录该内容

68 篇文章 9 订阅

订阅专栏

概述

本文是基于单目图像的3D目标检测方法，是西安电子科技大学的郭鑫宇学长的硕士学位论文。
【2021】【单目图像的3D目标检测方法研究】
研究的问题：

如何提高伪点云的质量
伪点云体系中如何提高基于点云的检测算法的效果

提出的方法：

一种基于置信度的伪点云采样方法
模块更新和颜色信息嵌入

细节

基准模型

作者还是按照伪雷达点云算法的流程设计的，并且将单目深度估计的网络和基于点云的3D检测网络替换成了最先进的DORN网络和PV-RCNN网络，这就构成了本文的基准模型。
在这里插入图片描述

点云置信度生成网络

背景

这部分是作者第三章的内容，主要研究的是如何得到更加优质的伪雷达点云，来作为下一阶段3D检测网络的输入。
这个问题我见到过两种思路，一种是改进单目深度估计的网络，使得生成的深度图像质量尽可能的高，从而得到高质量的伪点云；另一种 就是不改动单目深度估计网络，而是想办法提高生成伪点云的质量，这也正是作者的想法。

那该如何提高伪点云的质量呢？作者给出的想法就是剔除掉不可靠的点云，保留可靠的点云。
那具体该怎么做呢？作者考虑了伪点云是有深度图像转换而来的，就开始研究深度图像，发现了以下两个性质，依靠着这两个性质提出了置信度的概念，依靠置信度筛选点云。

在目标中心位置附近的深度估计最为准确，而在目标与背景间过渡区域的平均误差最高。
单目深度图的深度误差随距离的增加而非线性上升。

作者将第一个性质表示出来，成为局部置信度，将第二个性质表示出来，称为全局置信度，结合这两个置信度得到最终的置信度。注意，我们这边得到的置信度其实还是图像中逐像素的置信度，想要得到点云的置信度，应该对点云进行投影，对应投影位置的置信度，就是点云置信度。

注：单目深度图的深度误差随距离的增加而非线性上升的原因
因为KITTI 数据集使用激光雷达点云作为单目深度估计的 GT，由于激光雷达传感器的红外射线具有发散性，在远距离处的雷达点云更稀疏，所以在训练深度估计网络时远距离场景的 GT 匮乏，导致单目深度估计网络对于远距离物体检测的能力很差。

整体流程

整体流程:就是非阴影部分的区域，包括2D检测、置信度生成和点云重采样
置信度生成:关键就是得到点云中每一个点对应的置信度。具体做法就是计算这个点对应的局部置信度和全局置信度，相乘就是最终的置信度。
在这里插入图片描述

局部置信度

对应的性质：在目标中心位置附近的深度估计最为准确，而在目标与背景间过渡区域的平均误差最高。
一种直观的想法：检测框区域就是置信度较大的区域，检测框没包含的区域就是背景区域，置信度相对较低。这样的话大体上已经满足性质1的要求了，但是还存在一些问题：

检测框内部仍然包含背景区域
背景与目标交接区域的深度误差较大，这一点无法体现。

因此，作者决定进一步细化，引入了二维高斯分布描述置信度的分布。
第一个公式描述的是：假定局部置信度在 2D 检测框内服从二维高斯分布，因为显然整张图片中的局部置信度分布不可能服从二维高斯分布，而检测框内似乎是符合的。
第二个公式就是作者设计的二维高斯分布，其中绝大部分是已知参数，包括边界框当中的任意一点 $(u, v)$ ，边界框中心点 $u_c,v_c)$ 以及边界框的长宽 $w, h$ ，唯一的参数就是这个 $\sigma$
最后一个图片就是用这个公式描述的检测框内局部置信度的可视化结果，可以发现，他的表现是和性质一样的。

在这里插入图片描述

第一个问题：到这里我们实现了边界框内局部置信度的计算，那么边界框外，也就是背景区域，置信度该怎么算呢？
首先，背景区域对应的点云应该是我们要剔除的，直观上置为0就好，但是作者实现发现，设置一个很低的置信度会有更好的效果，因此就有了下面这个公式。
在这里插入图片描述
这样我们就完成了局部置信度的计算，如下图所示

但是我们这边算出来的置信度只是图像上每个点的，我们要的是点云对应的局部置信度，也就是需要将点云重新投影到图像上得到对应的局部置信度。
但是还会有一个问题，也就是点云投影的位置可能会在多个检测框重叠的区域，也就是说对应多个局部置信度，作者的做法就是取其中最大的一个局部置信度，作为点云对应的局部置信度。
在这里插入图片描述

全局置信度

对应的性质：单目深度图的深度误差随距离的增加而非线性上升。
这部分相对而言比较容易，因为深度直接和全局置信度挂钩，深度越大，全局置信度越大，深度越小，全局置信度越小，关键是怎么把这个事情用一个相对合理的公式进行表示，以下是作者的做法：

首先计算衰减因子 $R_\omega$ ，这个值主要是用于将深度进行归一化，因为深度值显然不会是0-1之间的值，它的计算方式是深度的平均值+当然深度值的方差。

在这里插入图片描述

接着使用 $\frac{d_p}{R_\omega}$ 归一下深度值，全局置信度主要就是通过 $1-\frac{d_p}{R_\omega}$ 计算的，但若是结果过小也不行，因为可能会趋近于0，因此作者给了一个下限值（原因同上，实验证明效果会比0好）
在这里插入图片描述
下面就是相关的效果，可以发现，目标确实被凸显出来了。