rcnn论文_【顶会100秒】PV-RCNN：3D目标检测新网络

最新推荐文章于 2024-02-12 16:08:15 发布

weixin_39688451

最新推荐文章于 2024-02-12 16:08:15 发布

阅读量213

点赞数

文章标签： rcnn论文

论文英文题目：PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

论文中译题目：PV-RCNN：3D目标检测新网络

作者：Shaoshuai Shi Chaoxu Guo Li Jiang Zhe Wang Jianping Shi Xiaogang Wang Hongsheng Li

编译：王俊，王家伟，刘博艺，机器学习组

01 摘要

我们提出了一种新颖的高性能3D对象检测框架，名为PointVoxel-RCNN（PV-RCNN），用于从点云中进行精确的3D对象检测。我们提出的方法将3D体素卷积神经网络（CNN）和基于PointNet的集合抽象方法进行了深度集成，以了解更多判别性点云特征。它利用3D体素CNN的高效学习和高质量proposal以及基于PointNet的网络的字段的灵活接收能力。具体而言，提出的框架通过新颖的体素集抽象模块将具有3D体素CNN的3D场景汇总为一小组关键点，以节省后续计算并编码的代表性场景特征。考虑到体素CNN生成的高质量3D proposal，Proposal使用RoI网格点，通过具有多个接受域的关键点集抽象将proposal特定的功能从关键点抽象到RoI网格点。与传统的池化操作相比，RoI网格特征点对更丰富的上下文信息进行了编码，以准确地估计对象的置信度和位置。在KITTI数据集和Waymo Open数据集上进行的大量实验表明，我们提出的PV-RCNN仅使用点云就以极高的成功率超越了最新的3D检测方法。

摘要解读：本文的特征提取方式充分利用的3D voxel卷积和基于点的pointnet卷积方式。其中作者给出的解释是3D voxel卷积高效性，而point-based的方法感受野可变，因此结合了这两种检测方法的优点。在精度的表现上看，该方法远远好于KITTI其他的方法，一个简单的过程如下，以下为多尺度特征融合到关键点上的一个创新工作。

02 核心内容

本文是一个将point_based的方法和voxel_based方法的结合的新型网络结构，基于网格的方法计算效率更高，但不可避免的信息丢失会降低细粒度的定位精度，而基于点的方法具有较高的计算成本，但可以通过点集抽象轻松实现更大的接收范围，并且提取存在的问题，这也是作者的论文出发点，结合这两种方法的优点。（在文章作者称voxel_based为grid_based的方法）

PV-RCNN为结合这两种方法的算法，采用多尺度的方法获得由voxel_based方法得到的高质量的改良建议，然后再利用Point_based的方法获得精细的局部信息。核心也就是如何将上述的两种方法有效的结合起来，这里作者的做法是：在每一个3D proposals内平均的采样一些Grid-point，然后再通过P2的FPS最远点采样的方法得到该Grid_point周围的点，再通过结合去进一步改良最后的proposals。

因此，作者采用两阶段的方法去更好的结合上述的两种算法的优点。

（1）第一阶段为：体素到关键点场景编码步骤，这一步是提出方法，作者首先对整个场景采用voxel（grid）的方法进行特征提取，同时采取一支分支对场景采用point的FPS采样，然后检索得到多尺度的voxel的特征，如下的表示。这样实际上仅仅是采用了voxel的特征，但是表示在关键点key-point上。

（2）第二阶段为：关键点对栅格RoI特征抽象，这一步骤，作者提出了一个新的RoI-Grid Pooling模块，该模块将上一步骤的关键点的特征和栅格Rol点特征融合。

以下阐述论文的主要方法及实验结果：

一、通过体素集抽象进行体素到关键点场景编码

（1）关键点抽样

采用FPS，对KITTI数据集的关键点个数为2048，对Waymo数据集为4096个点,用于代表整个场景的特征信息。

（2）体素集抽象模块

论文自行设计了Voxel Set Abstraction (VSA) 模块，这个模块的作用是将关键点周围非空的voxel特征采集出来结合在一起。

（3）扩展的VSA模块

进一步的在二维上，采用的是双线性插值得到关键点投影到BEV上的特征。最终的特征将有三部分组成，分别是来自voxel语义信息fipv, 来自原始点云的特征信息firaw(这一部分信息是为了弥补之前在voxel化时丢失的信息)，来自BEV的高级信息fibev。

（4）预测关键点权重

上述的特征融合实际上都是为了进一步的refine做准备，第一阶段的proposals实际上是由voxel-based（grid-based）的方法提出来的，这一步关键点的工作是为了给来自背景和前景的关键点一个不一样的权重，使得前景对refine的贡献更大。论文设计了如下的网络结构。网络结构里面的Label对应的是标签是否在3D GT内，采用fcoal_loss。

二、关键点对栅格RoI特征抽象

这就是作者提出的第二阶段refinement，前文提到通过3D稀疏卷积处理voxel已经得到了比较好的精度的proposals，但是多尺度的关键点的特征是为了进一步refine结果。因此作者在这个阶段提出了关键点对栅格RoI特征抽象模块。如下：

（1）从该模块名称和图可以看得出来，论文通过将关键点的特征整合到网格点中去，并且也采用了多尺度的策略。论文在每个proposals中都采样6×6×6个网格点。

（2）首先确定每一个网格点的一个半径下的近邻，然后再用一个PointNet模块将特征整合为网格点的特征，这里会采用多尺度的特征融合手段。

（3）得到了所有的网格点（grid-point）的点特征后，作者采用两层的感知机得到256维度的proposals的特征。

三、3D Proposal 优化和置信度预测

论文在置信度预测分支上采用了检测评价函数3D Intersection-over-Union (IoU)，对于第k个ROI的置信度的目标是如下公式：

该公式中IoUk表示第k个ROI对应的GT，因此置信度预测的损失函数采用的是交叉熵Loss，其中是预测的置信度的分数：

03 实验结果

（1）预测关键点加权模块RoI-grid的效果合并模块和IoU引导的置信度预测，如下的实验表明采用这种置信度是能提高算法的精度的：

（2）KITTI测试集上的性能比较：

对比KITTI测试集上以往论文的测试准确率，本论文提出的方法性能有显著提升。

（3）Waymo测试集上的性能比较：

在KITTI数据集和Waymo Open数据集上进行的大量实验表明，提出的PV-RCNN仅使用点云就以极高的成功率超越了最新的3D检测方法。

点击下方原文链接查看论文原文

https://pan.baidu.com/s/1KwbUy7vcST97_ybZ9s07XQ

论文提取码：4zch

weixin_39688451

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫