https://arxiv.org/pdf/2305.04925.pdf
摘要:
这篇文章以算力消耗为单位去评估了不同的局部点云聚合的方式,同等算力消耗下pillar的表现较好,这个打破了固有的印象;还发现了,图像中的好的2D的网络,直接用在点云上,也能大幅度提升检测效果。
1. 介绍:
点云的稀疏和不规则的特性,大多数都是先把点云转化为规则的形式,voxel, pillar, rangeview等。
一般会认为这些划分,会难免丢失很多信息。因此最近也有很多方法是结合point和grid的方式。
很多3D检测方法,都是在研究如何更好的去转化点云,提取局部的特征。但是比较少的在研究网络。2D的网络设计,也一直在有进展,而且2D的检测模型发展,更多的是在网络本身上。
本文作者觉得,点云的检测任务,关键的两点,局部特征提取的方法,网络结构需要重点研究。
局部特征提取的方法:作者以计算消耗为基础,进行了voxel,pillar, rangeview的对比;
相对粗糙的pillar划分,加上更多的特征提取,可以有比较好的表现。
网络结构:没有特殊针对点云去设计网络结构,重点关注的是增加感受野。
基于如上的分析,本文提出了PillarNeXt的网络结构,可以在性能和表现上达到一个均衡的效果。
总结下来主要的贡献:
1. Our findings challenge the common belief by showing that pillar can achieve comparable 3D mAP and better bird’s eye view (BEV) mAP compared to voxel, and substantially outperform multi-view fusion in both 3D and BEV mAP.
2. Inspired by the success of 2D object detection, we find that enlarging receptive field is crucial for 3D object detection. With minimal adaptions, our detectors outperform existing methods with sophisticated designs for point clouds.
3.Our networks with appropriate training achieve superior results on two large-scale benchmarks.
2. 网络结构
2.1 Grid Encoder
Pillar
Voxel
MVF
2.2 Backbone and Neck
ResNet-18 + SparseConv for pillar or mvf
3D SparseConv for voxel
neck: ASPP
2.3 Head
Centerhead
3. 实验
NVIDIA TITAN RTX GPU
Our pillar size is 0.075m in x/y-axis (and 0.15m in z-axis for voxel based)
+ 使用的tricks
Neck
BiFPN
ASPP
Resolution
pillar的模型,在有同等算力,更多的trick的加持下,可以达到voxel一样的表现,而且能更快。
借鉴:aspp/bifpn 的neck对结果的提升;tricks;