voxelnet_VoxelNet

Abstract

为了让高度稀疏的LiDAR点云和region proposal network接合,现存方法着重于手工制作特征表达,例如BEV。在这篇论文中,我们去除了人工特征标注,提出了VoxelNet,统一特征提取,利用single stage,end to end 深度网网络。VoxelNet把点云均匀分割在3D体素,然后利用voxel feature encoding层将它们转化成标准特征表示。

Introduction

LiDAR点云稀疏且密度多变,由传感器有效距离、阻碍、相关姿势、不统一的3D空间等多种因素引起。图片检测识别领域的主要突破就是从hand-crafted features 转到machine-learned features.

将三维特征学习网络扩展到多个数量级点和三维检测任务是我们在本文中解决的主要挑战。

2e35b69511a1

VoxelNet.png

我们设计了一个新的voxel feature encoding(VFE)layer,通过结合点尺度特征和局部放大特征,体素中的点可以相互作用。通过层叠的VFE层将体素编码,然后3D卷积进一步放大局部voxel特征,将点云转化成高维的体积的表达。最后通过RPN产生检测结果。

我们还证明了体素网在从激光雷达点云探测行人和骑自行车的人方面取得了非常令人鼓舞的结果。

Related Work

基于图片的3D检测方法和深度估计有很强的联系。

VoxelNet

2.1 VoxelNet Architecture

Feature learning network

Convolutional middle layers

Region proposal network

2.1.1 Feature learning network

Voxel Partition

将点云划分为均匀的体素网格。

Grouping

点云在空间中分布不均,导致各个体素内点云数量差别很大。

Random sampling

LiDAR通常可以采集100K的点,运算代价太大,对每个体素内点数超过T的体素实施随机采样,采T个点,好处有两点:

计算量减小

减下体素间的差异,避免采样偏差

Stacked Voxel Feature Encoding

2e35b69511a1

Voxel feature encoding layer..png

Sparse Tensor Representation

处理非空体素,得到四维tensor张量,C代表维度。

点云数据中有百分之九十的体素都是空的。

2.1.2 Convolutional Middle Layers

通过扩大接受域扩大了 voxel-wise 特征,给shape description 增加了内容。

2.1.3 Region Proposal Network

2e35b69511a1

Region proposal network architecture.png

2.2 Loss Function

2e35b69511a1

Loss Function.png

2.3 Efficient Implementation

把点云转化成dense tensor structure,VFE可以平行处理点和体素,以便接下来的convolutional middle layers 和RPN处理。

将点加入体素的过程用哈希表实现,voxel coordinate 被当作哈希key。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值