解读：Structure Aware Single-stage 3D Object Detection from Point Cloud

最新推荐文章于 2023-10-15 16:37:51 发布

还没有入门的算法复制修改师

最新推荐文章于 2023-10-15 16:37:51 发布

阅读量653

点赞数 5

文章标签：自动驾驶深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/weixin_42608406/article/details/109224139

版权

文章目录

1.前言
2.摘要
3.Introduction
4.网络结构

1.前言

从点云数据检测3D对象在自动驾驶中起着至关重要的作用。通过以完全卷积的方式逐步缩小3D点云的尺寸，当前的单级检测器非常有效。但是，缩小的特征不可避免地会丢失空间信息，并且无法充分利用3D点云的结构信息，从而降低了其定位精度。

2.摘要

在这项工作中，本文建议通过显式利用3D点云的结构信息来提高单级探测器的定位精度。具体来说，本文设计了一个辅助网络，该网络将骨干网络中的卷积特征转换回点级表示形式。辅助网络通过两个点级监督进行联合优化，以引导骨干网络中的卷积特征以了解目标结构。辅助网络可以在训练后分离，因此在推理阶段不会引入额外的计算。此外，考虑到单级检测器会受到预测边界框和相应分类置信度之间的不一致的影响，本文开发了一种 part-sensitive warping operation，以将置信度与预测边界框对齐。

3.Introduction

基于两级检测器的高精度，本文提出利用细粒度结构信息来提高定位精度，同时保持单级方法的高效性。设计了一种结构感知的单级三维物体探测器，其结构如图1所示。除了为产生bounding box预测生成down-scaled特征的骨干网络之外，还包含一个辅助网络，该网络通过点级监控引导骨干网络学习更多的区分特征。具体地说，辅助网络首先将来自主干网的特征转换回逐点表示，然后执行两个辅助任务：前景分割以使特征对对象边界敏感，以及逐点中心估计以使特征了解对象内部的关系。辅助网络在训练阶段与骨干网联合优化，训练后去除，推理阶段不增加计算量。如图2（b）所示，在辅助任务的指导下，我们的模型可以产生更精确的定位

图1：单级三段式目标探测器的结构概述。网络包括三个子网络、从点云中提取多级特征的backbone网络、预测三维边界盒的后端检测网络和利用点监控的辅助网络。辅助网络中的黄色点表示原始点云坐标系中的非零特征向量。还设计了一个部分敏感翘曲（PSWarp）方案，使分类置信度与预测的边界框对齐。

在这里插入图片描述图2：a）代表性的单级检测器SECOND （b）以辅助任务和点级监督为指导的单级方法，从稀疏3D点云中预测边界框。辅助网络预测的对象点，地面真实框，中心点和最终检测结果分别以绿色，白色，黄色和红色显示。

此外，单级探测器通常会出现预测边界框与相应分类置信度之间的偏差。具体而言，分类置信度与使用的特征地图的当前位置相关，而预测的边界框通常偏离其当前位置。这种失调可能导致NMS后处理的结果不理想。受psroiallign[3]的启发，开发了一种高效的part-sensitive warping method（图2中检测网络中的PSWarp表示），通过对分类特征图进行空间变换，将分类置信度与预测的边界框对齐，使模型生成更可靠的置信图。

4.网络结构

4.1介绍了主干网和检测网络。4.2介绍了辅助网络，通过两个特殊的辅助任务来捕捉主干网的隐藏特征。4.3引入part-sensitive warping operation，以生成更精确的置信图。4.4给出了用于训练的损失函数。

4.1.Backbone and detection networks

Input data representation

直接量化点的坐标作为输入的张量索引。
点的坐标：
在这里插入图片描述
输入张量的量化step：

所以张量可以表示为：

在这里插入图片描述
其中[.]为floor function。
根据相关索引迭代地将每个点分配给输入张量的入口。如果多个点共享同一索引，则使用最新的点覆盖条目。这种预处理方法有效且足以实现合理的性能，当使用量化步长d=[0.05m，0.05m，0.1m]时。

Network architecture

网络体系结构。如图1所示，使用常用的主干网作为我们的特征提取器。该网络包含四个卷积块，每个卷积块由核大小为3的子流形卷积组成。最后三个块包含一个步长为2的额外稀疏卷积。每一个卷积后面都有一个batch normalization和ReLU非线性。因此，主干网可以生成不同空间分辨率的多级特征图。该检测网络通过将沿深度维度的特征向量串联成一个通道，将特征映射从主干输出到BEV表示。然后采用6个标准的3×3非线性卷积进一步提取特征。两个无非线性的同级1×1卷积用于生成特定任务的像素预测：一组零件敏感分类maps和一个对定向3D对象的anchor偏移进行编码的回归map。

4.2.Detachable auxiliary network

提出学习一个可分离的点监控辅助网络，使主干网提取的特征能够感知三维点云的结构信息。
Motivation
通常，从点云中提取的下采样卷积特征不可避免地会丢失结构细节，而这些细节对于精确定位至关重要。从二维点集检测对象的一个典型例子就是图3。
如图3（a）所示，只检测到来自对象的几个点，并且有一些背景点靠近其边界。这种情况在真实场景中非常常见，在真实场景中，物体远离传感器，被其他不感兴趣的物体遮挡。随着CNN逐渐降低点云的空间分辨率，一些对象点可能淹没在背景点中，导致对象边界处的特征在低分辨率特征空间中被错误分类，如图3（b）所示。因此，该模型被误导并生成低质量的边界框。

在这里插入图片描述图3：（a）从二维点云预测边界框的一个典型例子。前景点、背景点和地面真实边界框分别以绿色、黑色和白色显示。（b）卷积特征的预测，黑色和绿色方块表示非零特征向量。（c）边界敏感卷积特征的预测。（d）基于结构感知卷积特征的预测。黄色十字表示估计的物体中心。

我们的解决方案是建立一个具有点级监控的辅助网络，引导CNN主干网不同阶段的中间特性，以了解点云的细粒度结构。为了实现这一目标，首先需要将提取的CNN特征转换回逐点表示。

Point-wise feature representation

辅助网络如图2所示。该算法首先根据当前阶段的量化步长，将每个非零指标的主干特征转换为现实世界的坐标，使每个主干特征都能以点的形式表示。用在这里插入图片描述来表示，fi是特征向量，p是点的坐标。为了产生全分辨率的基于点的特征，在每个阶段使用特征传播层，在原始点云的坐标处{pi：i=1,…,N}插值骨干网络的特征。使用相邻区域内所有点之间的距离加权逆平均。设{（ˆfi，pi）：i=1，…，N}为内插（传播）特征，每个点的特征向量可通过以下公式计算：

在这里插入图片描述
其中：

在这里插入图片描述
N（pi）表示一个球体区域，每个阶段的半径分别为0.05m、0.1m、0.2m和0.4m。通过跨阶段链接将这些点式特征串联起来，并应用一个浅层预测器来生成特定任务的输出。预测器由共享的多层感知器实现，神经元大小为（64，64，64），两个任务特定的输出由单位点卷积生成。

Auxiliary tasks

基于点的前景分割任务，以指导backbone CNN在目标边界上学习更多的区分模式。具体来说，在分割分支上使用一个sigmoid函数来预测每个点的前景/背景概率，用^si表示。设si为一个二进制标签，用以指示一个点是否落在一个ground truth中。前景分割任务可以在焦点损失的情况下进行优化，即

在这里插入图片描述
其中

α和γ是超参数，使用原始文献中规定的经验值0.25和2。
上面的分段任务使骨干网能够更精确地检测对象边界，如图3（c）。使用更精确的特征贴图，模型可以生成更精确的边界框。然而，即使精确地检测到边界点，由于特征映射非常稀疏，边界框的大小和形状的确定仍然存在模糊性。为了进一步提高定位精度，使用另一个辅助任务来学习每个目标点到目标中心的相对位置。如图3（d）所示，这种内部对象关系可以帮助确定对象的比例和形状，从而导致更精确的定位。
∆~p是评估分支的中心输出，∆p是点到相关的中心的目标偏移量。中心估计任务可以通过以下平滑-l1损失进行优化：

在这里插入图片描述
其中NPO是指前景点的数量，1[·]是一个指示函数。
结合前景分割和中心估计任务，骨干网可以学习结构感知特征。采用这两个辅助任务可以显著提高骨干网的定位精度。此外，辅助网络只在训练阶段使用，不增加推理的计算成本。

4.3.Part-sensitive warping

为了解决预测的边界框与相应的置信图之间的偏差，提出了一种part-sensitive操作，即PSWarp，通过对特征图进行空间变换，将分类置信度与预测边界框对齐。

在这里插入图片描述
图4
首先，把分类输出的最后一层classification map分成K个部分。比如，当K=4时，分为{upper-left，upper-right，bottom-left，bottom-right}。

同时，我们把feature map每一个grid预测产生的bounding box也分成K个部分，每一部分的中心点作为采样点。这样，就得到了k个采样的小网格{Sk：k=1,2,…,K}并且每一个与classification map相对应。

PSWarp由一个特征图采样器[组成，如图4所示，它以分类图和采样网格为输入。

在这里插入图片描述
最后计算得到的box的置信度：

在这里插入图片描述
这样就把置信度map和预测边界框对齐了。

4.4.Loss

令Lbox和Lcls分别是施加在回归分支和分类分支上的两个损失。 Lbox是Smooth-l1损失，Lcls是焦点损失。通过应用梯度下降法共同优化检测任务和辅助任务，以最小化以下损失的加权总和：

在这里插入图片描述
其中ω根据[30,25]，μ和λ经验性设置为2，它们是检测任务中辅助任务的超参数。

还没有入门的算法复制修改师

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
解读：Structure Aware Single-stage 3D Object Detection from Point Cloud

文章目录1.前言2.摘要3.Introduction4.网络结构4.1.Backbone and detection networks4.2.Detachable auxiliary network4.3.Part-sensitive warping4.4.Loss1.前言从点云数据检测3D对象在自动驾驶中起着至关重要的作用。通过以完全卷积的方式逐步缩小3D点云的尺寸，当前的单级检测器非常有效。但是，缩小的特征不可避免地会丢失空间信息，并且无法充分利用3D点云的结构信息，从而降低了其定位精度。2.摘
复制链接

扫一扫