论文笔记_SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation

最新推荐文章于 2024-07-18 21:56:03 发布

Glingli

最新推荐文章于 2024-07-18 21:56:03 发布

阅读量876

点赞数 25

分类专栏：自用：文献阅读笔记文章标签：论文阅读 3d 目标检测

本文链接：https://blog.csdn.net/qq_44852799/article/details/139720956

版权

自用：文献阅读笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

CVPR 2021
Qiangeng Xu et al.

SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation

A. Introduction

由于天气原因，自动驾驶场景中经常会出现一些遮挡因素，造成大量的目标丢失其部分或者全部的点云信息。而对于这些目标来说，由于点云信息的丢失使得其特征空间不再完整，或出现较大的区别，降低算法的整体识别能力。因此SPG算法的出现意在解决此类问题。

首先SPG算法是一个点云数据增强算法，他实现的功能是将低密度的目标点云进行up-sampling（而不是盲目的up-sampling整个场景），将残缺、遮挡的点云区域进行语义生成，从而使得可以一般检测器可以在此类糟糕天气场景中正常工作。

所以SPG并不包含检测功能，因此在文章的实验部分，作者采取了SPG+PV_RCNN以及SPG+PointPillars进行算法有效性的验证。

B. Method

I. Network Structure

对于点云空间 $PC_{raw} = \{p_1,p_2,...,p_N\}\in\mathbb{R}^{3+F}$ ，首先进行体素化：
$PC_{raw}\to V=\{v_1,v_2,...,v_M\}\in \mathbb{R}^C$
体素化的过程与Voxelnet相似，通过MLP将同一网格内的所有点进行特征的聚合。对于每一个体素通过前馈网络判断其前景概率，即：
$\tilde{P}^f_i=\text{FFN}(v_i)$
其中 $v_i\in V$ 。对于每一个体素，通过一个网络进行语义点的生成：
$\tilde{sp} = \text{Net}(v_i)$
其中 $\tilde{sp}\in\mathbb{R}^{3+F}$ ， $v_i\in V$ ， $\text{Net()}$ 论文中未给出描述。进一步的，对所有的生成点进行筛选，筛选规则如下：

生成点的坐标需要在generation area内。generation area被定义为具有点的体素空间以及其比邻的所有体素空间。
生成点的体素前景置信度需要满足 $\tilde{P}^f_i>P_{thresh}$ 。

最后将 $\tilde{sp}$ 与原始点云进行合并，并添加一个置信度维度：对于所有的原始点云，其置信度维度值为1.0，对于 $\tilde{sp}$ ，其置信度维度值为 $\tilde{P}^f_i$ 。即：
$PC_{aug} = \{p_1,p_2,...,p_N,\tilde{sp}_1,\tilde{sp}_2,...,\tilde{sp}_k\}\in\mathbb{R}^{3+F+1}$

II. Training Targets & Loss

- 使用 $y^f$ 作为 $\tilde{P}^f$ 的监督

在这里使用 $L_{cls}$ 作为前景分类损失，损失函数使用Focal loss。 $L_{cls}$ 对四个类别进行监督（见下文 III.Strategies/Semantic Area Expansion ）。
$L_{cls}=\frac{1}{|V_o\cup V^b_e|}\sum_{V_o\cup V^b_e}L_{focal}+\frac{0.5}{|V^f_e|}\sum_{V^f_e}L_{focal}+\frac{2}{|V_{hide}|}\sum_{V_{hide}}L_{focal}$

- 使用体素的真值 $\psi$ 作为 $\tilde{sp}$ 的监督

在这里使用 $L_{reg}$ 作为特征回归损失，损失函数使用Smooth-L1。SPG生成语义点的目标为前景体素的平均，即对于每一个体素 $v_i\in\mathbb{R}^{C}$ ，若其为前景（ $y^f>1$ ），则生成的点 $\tilde{sp}$ 以 $[\bar{x_i},\bar{f_i}]$ 为目标。
$L_{reg}=\frac{1}{|V^f_o|}\sum_{V^f_o}L_{smooth-L1}(\psi,\tilde{\psi})+\frac{2}{|V_{hide}|}\sum_{V_{hide}}L_{smooth-L1}(\psi,\tilde{\psi})$

III. Strategies

为了使得网络不仅可以在有点的体素中生成以增加点的密度，同时还需要在没有点但是为前景的体素中生成，以弥补遮挡和信息丢失带来的“missing points”情况。为此，在之前网络的基础上，作者添加了两个策略：“Hide and Predict” 以及 “Semantic Area Expansion”.

- Hide and Predict
为了模拟部分目标被遮挡，点云空间部分丢失的情景，对于体素空间 $V$ ，随机进行 $\gamma\%$ 隐藏（作者使用 $\gamma=25$ ），有：
$V_{hide}\subset V$
在训练中，需要仅通过 $V-V_{hide}|$ 而对所有的 $V$ 进行前景/背景标签 $y^f$ 的判断。对于 $V_{hide}$ 内的语义点 $\tilde{sp}$ 生成，应该以真值为目标（见 II. Training Targets 章节）。