（SA-SSD论文）CVPR--基于点云的结构感知3D目标检测（翻译+论文提炼）

最新推荐文章于 2023-05-28 08:30:36 发布

LidarXin

最新推荐文章于 2023-05-28 08:30:36 发布

阅读量1.6k

点赞数

分类专栏：论文翻译与精炼

原文链接：http://www4.comp.polyu.edu.hk/~cslzhang/paper/SA-SSD.pdf

版权

论文翻译与精炼专栏收录该内容

2 篇文章 0 订阅

订阅专栏

带着问题读文章

1.什么是单阶段、二阶段（多阶段）？单阶段和二阶段（多阶段）的优势劣势对比？作者为什么选择单阶段？

单阶段：就是只对点云数据进行检测。

二阶段：先proposal，再精细。

（二阶段方法，具体来讲，就是在第一阶段提取感兴趣的区域，然后通过在第二阶段重用具有完全分辨率的点云来产生更精确的检测）

单阶段-高效率；二阶段-高精度；既保证单阶段的高效率，又保证二阶段的高精度。

2.作者提出的第一个问题是什么？解决方法是什么？

单阶段未进行proposal，精度不足。

auxiliary network，将二阶段使用的精细回归的细粒度信息如何附加到一阶段信息中。采用了SECOND作为backbone，添加了两项附加任务，使得backbone具有structureaware的能力，定位更加准确。

3.作者提出的第二个问题是什么？解决方法是什么？

预测框和clsmaps之间不匹配。

feature map warping method。

文章内容

摘要

本文核心创新：

（1）将二阶段方法独有精细回归运用在一阶段的的检测方法上，为此作者在采用了一阶段的SECOND作为backbone的基础上，另外添加了两项类似于二阶段的附加任务，使得backbone具有structureaware的能力，定位更加准确；

（2）此外在一阶段中存在预测框和clsmaps之间不匹配的问题，本文也设计了一种策略解决这个问题。（仅仅使用Lidar数据进行3D检测的文章）

1 导言

1.1 auxiliary network

作者提出的解决的第一个问题，如下图的对比中，（a）图是SECOND检测出的bbox，可以看出在object 点比较少的时候虽然也可以检出，但是对应的框的定位效果就不如本文提出的(b)的实验效果。

这一问题仅仅在One-stage的检测方法中会出现，因为two-stage第一步提出proposals后，在第二步会精细的在fea map上进行精细的回归，所以在19年ICCV的文章主要的研究点则是 onestage的方法转two-stage，精度也是有很大的提升。但是不可避免的在时间消耗上增大，这也从侧面验证了利用细粒度信息对精细回归的重要性。

所以本文作者的核心第一个问题是将二阶段使用的精细回归的细粒度信息如何附加到一阶段信息中，也就是作者提出的如下的网络结构，可以看的出来作者的核心创新点在下面的auxiliary的网络结构中。该结构可以监督上层的tensor表达的学习到点云中的几何结构信息。

该附加网络结构做了如下几个操作：

1.将feature 转化到point的上，得到point-wise的特征信息

2.前景分割，目的是使得该网络结构对边界敏感，同时point-wise的特征估计object 中心加大内点感知能力。

1.2 feature map warping method

这就是作者提出的第二个问题，在one-stage的方法中，由于没有精细的回归会导致最后分类时得到的分数不太好，这会影响后续的NMS工作，因此作者设计了一个Align的方法，使得输出的分类置信度更具有可信度。

2 前人研究

2.1 一阶段方法（Single-stage approaches）

SECOND ，PointPillars都是经典的一阶段方法。

2.2 二阶段方法（Two-stage approaches）

两阶段的方法可以从point-based和voxel-based的方法上进行分说。

除去CVPR20的3D-SSD这篇文章，之前的基本所有的Pointbased的方法都是多阶段的，其中比较出名的工作有CVPR18的F-pointnet，这篇工作是先通过二维检测得到检出的目标，再通过视锥投影到三维点云中，最后采用pointnet的变体结构进行定位和分类，实际上算作是三阶段的方法；

后续的IROS19的F-ConvNet在F-pointnet的基础上将投影出来的视锥中的点云根据距离划分为多个序列。

在同年的CVPR19上Point-Rcnn也是point-based的目标检测方法，不过是Lidar-only的方法，以每一个点为anchor预测和回归目标框，计算消耗比较大。针对Voxel-based的方法。

在19年上后半段有挺多著名的工作，Fast-Point-RCNN，STD，PartA^2等等工作，也就是在前人的单阶段的基础上加入了refine的网络模块，进一步优化了定位。除此之外，融合图像信息和Lidar信息在19年及之前是很流行的，不过最新的方法几乎都是LIDAR-only的方法了。

比较近的有AAAI20的PIRCNN，这一篇也是一个两阶段的方法，通过lidar预测出的框和图像特征融合做二阶段的回归。

2.3 辅助任务学习（Auxiliary task learning）

通过附加任务使得backbone具有某种特征倾向的能力。

3 基于辅助网络学习的3D对象检测（作者的方法）

3.1 骨干网络（Backbone）和检测网络

输入数据表示法

网络体系结构

3.2 可剥离辅助网络（Detachable auxiliary network ）

动机

有针对性的特征表示

辅助任务

3.3 局部敏感翘曲（Part-sensitive warping）

3.4 损失函数

本文采用的是anchor -based的方法，其损失函数和以往的voxel-based的方法一致，只是多了上述提到的附加任务的两项损失。如下：

4 实验

4.1 执行细节

训练细节

数据增强

4.2 辅助任务的权重选择

4.3 与先进技术的比较

4.4 消融研究

分割任务的效果

中心估计任务的效果

部分敏感翘曲的效果

4.5 运行时分析

5 结论

在本工作中，我们研究了当前单步3D对象检测器的局限性，并提出了一种新的检测器，即结构感知单级检测器，用于3D点云检测。我们先去选择使用两个点级监督来学习辅助网络，以指导在骨干网络中学习的特征来感知三维对象的结构信息。这很重要在NMS后处理中被判定的包围框及其相应的信任。在KITTI3D/BEV检测基准上的实验表明，该方法达到了最先进的性能高效的CE。

LidarXin

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
（SA-SSD论文）CVPR--基于点云的结构感知3D目标检测（翻译+论文提炼）

带着问题读文章1.什么是单阶段、二阶段（多阶段）？单阶段和二阶段（多阶段）的优势劣势对比？作者为什么选择单阶段？单阶段：就是只对点云数据进行检测。二阶段：先proposal，再精细。（例如通过二维检测得到检出的目标，再通过视锥投影到三维点云中，最后采用pointnet的变体结构进行定位和分类）单阶段-高效率；二阶段-高精度；既保证单阶段的高效率，又保证二阶段的高精度。2.作者提出的第一个问题是什么？解...
复制链接

扫一扫