VoxelNet: 基于点云的三维空间信息逐层次学习网络

                                            量化结果。使用LiDAR检测的3D BoundingBox被投影到RGB图像

1. 论文综述

       3D点云中目标的精准检测是很多应用场景的核心问题,如自动驾驶,家居机器人,虚拟/增强现实。为了将高度稀疏的LiDAR点云与区域候选网络连接在一起,很多研究学者将关注带你放在手工设计的特征表达,例如鸟瞰投影a bird's eye view projection. 这份工作中作者放弃了人工设计特征,直接提出了端到端的VoxelNet进行3D目标检测。具体来说,VoxelNet将点云划分为等间距的三维体素,并通过新引入的体素特征编码(VFE)层将每个体素内的一组点转换为统一的特征表示。这样,点云可以被编码成可以描述的体积表征,进而他被量接到区域候选网络进行目标检测。在KITTI数据集上,作者的方法取得了最好的结果。

  • VoxelNet是一种基于点云的-可训练的-端到端的-3D目标识别框架,可以直接作用于系数的3D点云,避免了特征工程;
  • 该框架融合了稀疏点云结构,并且充分利用了voxel grid的并行处理
  • 该文也提出了一种有效的数据增强策略

在基于LiDAR的3D目标检测任务中,大多数方法均采用了特征工程的方法进行算法设计,最多的就是鸟瞰视觉投影。作者创新性的移除了人为的特征工程,并提出了有效的端到端的VoxelNet-3D detection框架。该方法最大的亮点在于可以直接操作3D点云数据并且捕捉到3D点云中的形状信息。

2. 主干和细节

      将三维点云划分为一定数量的Voxel,经过点的随机采样以及归一化后,对每一个非空Voxel使用若干个VFE(Voxel Feature Encoding)层进行局部特征提取,得到Voxel-wise Feature,然后经过3D Convolutional Middle Layers进一步抽象特征(增大感受野并学习几何空间表示,也就是我们经常说的浅层网络学习到的是基础视觉特征,深层网络学习到的是高级视觉语义特征),最后使用RPN(Region Proposal Network)对物体进行分类检测与位置回归。VoxelNet整个pipeline如下图所示:

VoxelNet网络结构. 特征学习网络直接输入原始的3D点云数据,然后将整个3D空间划分成独立的小voxel,每个voxel都采用特征提取网络进行特征提取,最后将各个特征按照原来的几何结构拼接在一起[这就是我们之前经常说的Global=Multi-Parts]。这样做的目的应该是为了抵抗形变。Middle Layer的目标在于增大感受野,提取更加高级的语义特征。最后交给3D-RPN网络进行BoundingBox回归。

2.1 点云的多层次学习

      VoxelNet是对PointNet以及PointNet++这两项工作的拓展与改进,粗浅地说,是对点云划分后的Voxel使用"PointNet"。我们可以仔细看一下某一层VFE,如下图所示,一块Voxel中的三个点经过FCN抽象Point-wise feature,并使用MaxPool得到Locally Aggregated Feature(局部聚合特征),然后将这个局部特征concatenate到每一个Point-wise feature上。

                                                             针对每一个Voxel提取特征 [逐点特征+局部聚合特征]

2.2 点云的高效查询

      此外,由于点云具有高度的稀疏性以及密度不均匀性,作者利用哈希表查询的方式,可以做到快速找到每一个Voxel中的点在三维点云中的具体位置,如下图所示。

3. 论文总结

3.1 思考

      VoxelNet只使用激光雷达数据,在KITTI上取得了state-of-the-art的效果。目前,3D Object Detection(Car)榜单第一名VoxelNet++也仅仅是只使用了点云,相对于榜单中同时使用点云以及RGB图像并采用fusion操作的其他几种方法,VoxelNet能够领先有些耐人寻味。廖子对于这种异常信息融合的结果解释如下:

  • 在3D场景中,RGB信息对3D Detection不是特别重要。因为汽车、自行车、人这三类物体仅仅通过外形轮廓就能够区分出来,如果网络能够很好地学习到这些几何空间特征,那么只需要点云就能得到很好的效果。但是如果是针对3D Instance Segmentation这类任务,比如区分黄车与黑车,LiDAR data与RGB data之间进行fusion就很有必要了。
  • 直接将两种data(或者两者对应的feature map)进行fusion操作,这种数据处理方式可能会使得神经网络不容易去学习更好的特征。比如人具备颜色信息感知空间位置感知,但是这两种感知并不是混为一谈的,两者应该是并行且存在交互的关系,这种交互关系可能比目前先concatenate再通过若干层全连接层的fusion机制要更加高级抽象。

3.2 论文金句总结

  • Compared to imagebased detection, LiDAR provides reliable depth information that can be used to accurately localize objects and characterize their shapes
  • We present VoxelNet, a generic 3D detection framework that simultaneously learns a discriminative feature representation from point clouds and predicts accurate 3D bounding boxes, in an end-to-end fashion. We design a novel voxel feature encoding (VFE) layer, which enables inter-point interaction within a voxel, by combining point-wise features with a locally aggregated feature
  • The convolutional middle layers aggregate voxel-wise features within a progressively expanding receptive field, adding more context to the shape description.介绍了卷积中间层的作用,是一种空间感受野增量式的学习过程,有利于学习高级语义特征,比如说数据分布结构等...

4. 参考文献

1. Zhou Y, Tuzel O. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection[J]. computer vision and pattern recognition, 2018.

2. https://zhuanlan.zhihu.com/p/40051716

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值