[点云识别]-What You See is What You Get: Exploiting Visibility for 3D Object Detection

What You See is What You Get: Exploiting Visibility for 3D Object Detection

你看到的才是你能get:探究可见性对3D物体检测的影响

CVPR 2020,对目前使用的3D数据结构进行了改造,增加了可见性这一属性,对于遮挡物体的检测和自动驾驶具有重大意义。

摘要

原文译文
Recent advances in 3D sensing have created unique challenges for computer vision. One fundamental challenge is finding a good representation for 3D sensor data.3D传感器的发展给计算机视觉领域带来了新的挑战,其中之一就是如何找到一个适合3D传感器数据的表示方式。
Most popular representations (such as PointNet) are proposed in the context of processing truly 3D data (e.g. points sampled from mesh models), ignoring the fact that 3D sensored data such as a LiDAR sweep is in fact 2.5D.目前最主流的表示方式(例如PointNet)是处理真3D数据(例如,从mesh上采样点云),忽略了3D传感器数据实际上是2.5D这一事实,例如激光扫描雷达。
We argue that representing 2.5D data as collections of (x, y, z) points fundamentally destroys hidden information about freespace.我们提出,将2.5D的数据表示成(xyz)这种点的形式严重破坏了空白区域(freespace)的隐藏信息。
In this paper, we demonstrate such knowledge can be efficiently recovered through 3D raycasting and readily incorporated into batch-based gradient learning.本文提出,这些隐藏信息可以通过3D光线传播恢复,并且利用到梯度学习中。
We describe a simple approach to augmenting voxel-based networks with visibility: we add a voxelized visibility map as an additional input stream.本文描述了一个简单的利用可见性进行voxel网络增强的方法:在输入中新增一个voxel的可见性map,作为一个额外输入。
In addition, we show that visibility can be combined with two crucial modifications common to state-of-the-art 3D detectors: synthetic data augmentation of virtual objects and temporal aggregation of LiDAR sweeps over multiple time frames.此外,我们还将可见性应用到目前主流的3D检测器的2个重要改进中:一个是虚拟物体的生成数据增强,另一个是激光雷达多帧数据在是时间上的聚集。
On the NuScenes 3D detection benchmark, we show that, by adding an additional stream for visibility input, we can significantly improve the overall detection accuracy of a state-of-the-art 3D detector.在3D检测benchmark NuScenes上,通过增加可见性输入,可以显著的提高检测的准确度。

Contribution

针对3D数据结构的表示形式,作者提出目前常用point cloud, mesh, voxel grids, range image这些不能准缺的提供所有3D信息,实际上 3D sensored data, is in fact, not fully 3D! 3D传感器获得的数据实际上并不是完全的3D。无论是双目相机、结构光、激光雷达获取数据时都会被遮挡所干扰。也就是存在视线遮挡,被遮挡的物体是无法被传感器所捕捉和获取的。也就是这一事实,3D数据是可以用2D表示的,深度图就是一个例子。从这个角度说,3D数据实际上2.5D,作者反复强调了这一概念。
本文的contribution分为三个层次

  1. 提出了一种计算voxel数据可见性的方法: raycasting,并且这种方法可以和梯度学习结合
  2. 将可见性用在voxel-based的三维网络中,将可见性map和原有的属性通过fusion融合
  3. 将可见性和2个关键的三维技术结合:虚拟物体的生成增强;多帧扫描数据的时空聚合。

所以,文章的结构为:
3.2 Compute Visibility through Raycasting 介绍如何计算可见性,并且分别有Raycasting with augmented objectsOnline occupancy mapping

3.3 Approach: A Twostream Network
介绍可见性怎么和已有的voxel 网络结合
fusion strategy

experiment

作者主要在NuScenes 3D detection benchmark进行了实验,Baseline用的是PointPillars,mAP 是31.5%,通过利用可见性,mAP涨了4.5%。
NuScenes 3D detection结果
NuScenes 3D detection结果
其次,作者还做了多组对比实验来证明各个组件的重要性。
ablation study
分别对fusion strategy,Drilling,Object augmentation,Temporal aggregation,Visibility stream,Vanilla PointPillars进行了对比。
最后,运行时间上,对于一个32-beam的激光雷达点云,计算可见性只要24ms左右。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值