voxelnet_苹果最新机器学习论文:使用VoxelNet进行3D物体检测

苹果的研究团队提出了一种名为VoxelNet的3D检测网络,该网络能直接处理原始点云数据,无需手动特征工程。VoxelNet通过体素特征编码层将点云转换为描述性体积表示,然后与候选区域生成网络结合,实现端到端的3D物体检测。在KITTI基准测试中,VoxelNet在3D检测上大幅超越现有LiDAR方法,尤其在行人和骑车人检测上表现出色。
摘要由CSDN通过智能技术生成

原标题:苹果最新机器学习论文:使用VoxelNet进行3D物体检测

dc09e0cb361e7a73b9e6bc2f6b9b0869.png

原文来源:arXiv

作者:Yin Zhou、OncelTuzel

「雷克世界」编译:嗯~阿童木呀 多啦A亮

现如今,3D点云(3D point clouds)中的精确目标检测是许多应用中的核心问题,例如自主导航(autonomous navigation)、家用机器人以及增强/虚拟现实等。为了将一个高度稀疏的激光点云(LiDAR point cloud)与候选区域生成网络(RPN)联系起来,当下的大多数努力都是专注于手动的特征表示,例如鸟瞰图投影。在这项研究中,我们消除了对3D点云进行手动特征工程的需求,并提出了一个通用的3D检测网络——VoxelNet,它能够将特征提取和边界框预测统一到一个单一阶段的、端到端的可训练深度网络中。特定情况下,VoxelNet将点云划分为等间隔的三维像素(即体素),并通过新引入的体素特征编码(voxel feature encoding,VFE)层将每个体素内的一组点转换为一个统一的特征表示。通过这种方式,点云被编码为描述性的体积表示,然后连接到RPN以生成检测。基于KITTI汽车检测基准的实验结果表明,在很大程度上,VoxelNet远远超过了当前最先进的基于激光雷达的3D检测方法。此外,我们的网络还学习一种有效的对不同几何形状目标的区别性表示方法,从而,相较于仅基于激光雷达的检测,我们的3D检测方面在对行人和骑自行车人的检测重取得了令人振奋的结果。

1de16626b9fdf9fbbe7313146c6a6c76.png

图1 使用一个单一的端到端的可训练的网络,VoxelNet能够直接运行在原始点云上(不需要特性工程),并生成3D检测结果。

基于点云的3D目标检测是各种实用应用的重要组成部分,例如自主导航、家用机器人和增强/虚拟现实。相较于基于图像的检测,激光雷达能够提供可靠的深度信息,可用于精确定位目标并表征其形状。不过,与图像不同的是,由于诸如3D空间的非均匀采样、传感器的有效范围、遮挡以及相对姿态等因素,激光雷达点云稀疏且具有高度可变的点密度。为了应对这些挑战,许多方法都是手动制作针对3D目标检测的点云的特性表示。其他方法则是将点云栅格化为3D体素网格,并使用手动特征对每个体素进行编码。然而,这些手动设计选择引入了一个信息瓶颈,阻止这些方法有效地利用3D形状信息和检测任务所需的不变量。而在图像识别和检测任务上所取得的一个重大突破在于从手动制作的特征转换到机器学习的特征。

最近,Qi等人提出了PointNet,它是一个端到端的深度神经网络,可以直接从点云中学习点对点的特征。这种方法在3D目标识别、3D目标部分分割和逐点语义分割任务上取得了瞩目的成果。在《Pointnet++:度量空间点集上的深度层次特征学习》(arXiv preprint arXiv:1706.02413, 2017)中,引入了改进版的PointNet,使网络能够学习不同规模的局部结构。为了取得令人满意的结果,这两种方法在所有输入点(约1000个点)上训练特征转换网络。由于使用激光雷达获得的典型点云包含了大约100000个点,因此如《Pointnet:深入学习三维分类和分割的点集》和《Pointnet:度量空间点集上的深度层次特征学习》中所述的对结构进行训练会导致高计算和内存要求,将3D特征学习网络扩展到更多的点中以及3D检测任务中则是我们在这篇论文中所面临的主要挑战。

dc09e0cb361e7a73b9e6bc2f6b9b0869.png

图2. VoxelNet架构:特征学习网络将原始点云作为输入,将空间划分为体素,并且将每个体素内的点变换为表征形状信息的矢量表示。该空间被表示为稀疏4D张量。卷积中间层处理4D张量以聚合空间上下文。最后,RPN生成3D检测。

候选区域生成网络(RPN)是一种高效的目标检测算法。然而,这种方法要求数据密集并以张量结构(例如图像、视频)组织,而典型的LiDAR点云并非如此。在本文中,我们缩小了三维检测任务中点集特征学习和RPN之间的差距。

我们提出了一个通用的3D检测框架VoxelNet,它可以从点云中同时学习一个有区别的特征表示,并以端到端的方式预测精确的三维边界框,如图2所示。我们设计一个新的体素特征编码(VFE)层,通过将点式特征与本地聚合特征相结合,实现了体素内的点间交互。堆叠多个VFE层允许学习复杂的特征来表征局部3D形状信息。具体来说,VoxelNet将点云划分为等间隔的三维像素,通过堆叠的VFE层对每个体素进行编码,然后三维卷积进一步聚合局部体素特征,将点云转化为高维体积表示。最后,RPN消耗体积表示并产生检测结果。这种有效的算法既有稀疏点结构的优点,又有利于体素网格的并行处理。

我们评估VoxelNet的鸟瞰图检测和完整的3D检测任务,使用KITTI检测基准。实验结果表明,VoxelNet大大超越了先进的基于LiDAR的三维检测方法。我们还证明,VoxelNet在LiDAR点云中检测行人和骑车者方面取得了令人鼓舞的成果。

基于LiDAR的3D检测中大多数现有的方法依赖于手工特征表示,例如鸟瞰图投影。在本文中,我们消除了手工特征操作的瓶颈,并提出了VoxelNet,这是一种新颖的基于点云的端到端可训练深度架构的3D检测。我们的方法可以直接在稀疏3D点上操作,并有效地捕捉3D形状信息。我们还介绍了VoxelNet的一个高效实现,它可以从点云稀疏性和体素网格上的并行处理中受益。我们在对KITTI汽车检测任务上的实验表明,VoxelNet大大超越了先进的基于LiDAR的3D检测方法。在更具挑战性的任务中,例如对行人和骑自行车人的3D检测,VoxelNet也展示了令人鼓舞的结果,结果表明它能提供更好的3D表示。未来的工作包括将VoxelNet扩展到联合LiDAR和基于图像的端到端3D检测,以进一步提高检测和定位精度。

论文下载:https://arxiv.org/pdf/1711.06396.pdf返回搜狐,查看更多

责任编辑:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值