【论文阅读】SECOND: Sparsely Embedded Convolutional Detection

论文链接: https://www.researchgate.net/publication/328158485_SECOND_Sparsely_Embedded_Convolutional_Detection

项目连接: https://github.com/traveller59/second.pytorch
 


目录

动机

方法

一、引言

 二、相关工作

2.1. Front-View- and Image-Based Methods

2.2. Bird’s-Eye-View-Based Methods

2.3. 3D-Based Methods

2.4. Fusion-Based Methods

3. SECOND Detector

3.1. Network Architecture

3.1.1. Voxelwise Feature Extractor

3.1.2. Sparse Convolutional Middle Extractor

3.1.3. Region Proposal Network

四、实验


动机

基于体素的卷积神经网络存在的问题:推理速度慢、方向估计性能低。

方法

研究了一种针对基于体素的卷积神经网络改进的稀疏卷积方法  -->  提高训练和推理的速度。

我们还介绍了一种新形式的角度损耗回归 --> 提高方向估计性能,

以及一种新的数据增强方法--> 提高收敛速度和性能。

一、引言

用于处理图像的方法不能直接应用于激光雷达数据。因为图像缺乏空间信息

点云数据包含准确的深度信息,可以由 LiDAR 或 RGB-D 相机生成。通过对对象上的指定点应用直接变换,可以很容易地缩放、旋转和移动对象。

VoxelNet

单阶段端到端网络中结合了原始点云特征提取和基于体素的特征提取。

缺点:计算成本高

过程:它首先将点云数据分组为体素,然后逐个体素应用线性网络,然后将体素转换为密集的 3D 张量以用于区域提议网络(RPN)[16]

 二、相关工作

现有的基于点云数据图像的 3D 对象检测工作

2.1. Front-View- and Image-Based Methods

在 BEV 检测和 3D 检测方面表现不佳。

2.2. Bird’s-Eye-View-Based Methods

MV3D、ComplexYOLO

在生成 BEV 图时会丢弃许多数据点,从而导致垂直轴上的信息大量丢失。 这种信息丢失严重影响了这些方法在 3D 边界框回归中的性能。

2.3. 3D-Based Methods

直接使用点云数据或将这些数据转换成3D网格或体素

三维计算成本高,3D CNN的计算复杂度随着体素分辨率的增大而增大

2.4. Fusion-Based Methods

基于融合的方法通常运行缓慢,因为它们需要处理大量的图像输入。 对具有 LiDAR 功能的时间同步和校准相机的额外要求限制了可以使用此类方法的环境并降低了它们的鲁棒性。

3. SECOND Detector

3.1. Network Architecture

整个框架由3部分组成

(1) voxelwise feature extractor

(2) sparse convolutional middle layer

(3) RPN

过程:检测器将原始点云作为输入,将其转换为体素特征和坐标,并应用两个 VFE(体素特征编码)层和一个线性层。然后,应用稀疏 CNN。最后,RPN 生成检测。

3.1.1. Voxelwise Feature Extractor

先对点云做grouping,选取特定范围内的点作为特征提取器的输入

先对原始点云进行体素网格划分,随后利用 VFE 体素特征提取网络提取每个体素的特征

3.1.2. Sparse Convolutional Middle Extractor

middle extractor是用来学习z轴上的信息,并且把稀疏的3D数据转换为2D BEV图像。这个包含了两种卷积: sparse convolution 和 submanifold convolution。

图3 稀疏中间特征提取器的结构。黄色框表示稀疏卷积,白色框表示子流形卷积,红色框表示稀疏到密集层。图的上半部分是稀疏数据的空间维数。

3.1.3. Region Proposal Network

Region propose network 与 SSD 类似, 其包含三个dowsample阶段,即(conv * k + BN + ReLU) * 3,然后将每个stage的输出反卷积上采样连接成一个特征图。最后使用三个1* 1的卷积得到类别,偏移和方向(class, regression offsets 和 direction)。

图4 RPN的详细结构。蓝色框表示卷积层,紫色框表示用于级联的层,天蓝色框表示stride-2下采样卷积层,棕色框表示转置卷积层。

四、实验

数据集:KITTI

评级指标:

3D 检测性能:KITTI 测试集中 3D 框的平均精度 (AP) 

BEV检测性能: KITTI测试集中BEV框的平均精度 (AP) 

3D 检测性能:KITTI 验证集中 3D 框的平均精度 (AP)

BEV检测性能: KITTI验证集中BEV框的平均精度 (AP) 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值