声明
摘要
为了将高度稀疏的LiDAR点云与区域提案网络(RPN)连接起来,大多数现有的工作都集中在手工制作的特征表示上,用于检查鸟瞰投影。本文消除了对3D点云进行手动特征工程的需求,并提出了VoxelNet,这是一种通用的3D检测网络,可将特征提取和边界框预测统一到一个单级,端到端可训练的深度网络中。
VoxelNet将点云划分为等间距的3D体素,并通过新引入的体素特征编码(VFE)层将每个体素中的一组点转换为统一的特征表示。
通过这种方式,点云被编码为描述性的体积表示,然后将其连接到RPN以生成检测。
数据集:KITTI
引言
与基于图像的检测相比,LiDAR提供了可靠的深度信息,可用于精确定位物体并表征其形状。然而,与图像不同,LiDAR点云是稀疏的,并且由于诸如3D空间的不均匀采样,传感器的有效范围,遮挡和相对姿势等因素而具有高度可变的点密度。
有几种方法将 点云投影到一个精确地视图中,并应用基于图像的特征提取技术。其他方法将点云栅格化为3D体素网格,并使用手工制作的要素对每个体素进行编码。然而这些设计引入了一个信息瓶颈,阻止这些方法有效的利用3D形状信息和去切除任务所需的不变性。
因为使用激光雷达获得的典型点云包含了约100k个点,训练框架会导致很高的计算和存储需求。
将三维特征学习网络扩展到多个数量级的点和三维检测任务是本文中解决的主要挑战。
区域提案网络(RPN)是一种高度优化的高效目标检测算法。然而,这种方法需要数据密集,并以张量结构(例如,图像,视频)组织,这与典型的激光雷达点云不同。本文将点集特征学习与RPN结合起来进行三维检测。
VoxelNet是一个通用的3D检测框架,他同时从点云学习有区别的特征表示,并以端到端的方法预测准确的3D边界框。本文设计了一种新的体素特征编码(VFE)层,通过将逐点特征于局部聚合特征相结合,实现体素内的点间交互。叠加多个VFE层可以学习复杂的特征表示局部三维形状信息。
具体来说,VoexlNet将点云划分成等间距的3D体素,通过堆叠的VFE层对每个体素进行编码,然后进行3D卷积,进一步聚合局部体素特征,将点云转化为高维的体素表示。最后RPN消耗体积表示并产生检测结果。该算法既得益于稀疏点结构,又得益与体素网格的高效并行处理。
框架
1.VoxelNet Architecture
由三个模块组成 a.特征学习网络,b.卷积中间层,c.区域提案网络
(1)Feature Learning Network
Voxel Partition
给定一个点云,将3D空间细分为等间距的体素。
假设点云分别沿X,Y,Z轴的分布范围为D,H,W。相应的定义每个体素的大小VD,VH,VW.
生成的3D体素网格的大小为:D’=D/VD,H’=H/VH,W’=W/VW.
Grouping
根据他们所在体素对这些点进行分组。由于距离、遮挡、物体相对姿态、采样不均匀等因素以及LiDAR点云是稀疏的,在整个空间中具有高度可变的点密度。因此分组后,体素将包含可变数量的点。
Random Sampling
在包含超过T个点的体素中随机抽取固定数量的点T。
目的:节省计算,减少体素之间点的不平衡,减少了采样偏差,增加了训练的多样性。
Stacked Voxel Feature Encoding
参考自:https://blog.csdn.net/qq_44876051/article/details/118708542?
2.Convolutional Middle Layers
3.Region Proposal Network
4.Loss Function