PillarNext 论文解读

https://arxiv.org/pdf/2305.04925.pdf

摘要:

这篇文章以算力消耗为单位去评估了不同的局部点云聚合的方式,同等算力消耗下pillar的表现较好,这个打破了固有的印象;还发现了,图像中的好的2D的网络,直接用在点云上,也能大幅度提升检测效果。

1. 介绍:

点云的稀疏和不规则的特性,大多数都是先把点云转化为规则的形式,voxel, pillar, rangeview等。

一般会认为这些划分,会难免丢失很多信息。因此最近也有很多方法是结合point和grid的方式。

很多3D检测方法,都是在研究如何更好的去转化点云,提取局部的特征。但是比较少的在研究网络。2D的网络设计,也一直在有进展,而且2D的检测模型发展,更多的是在网络本身上。

本文作者觉得,点云的检测任务,关键的两点,局部特征提取的方法,网络结构需要重点研究。

局部特征提取的方法:作者以计算消耗为基础,进行了voxel,pillar, rangeview的对比;

相对粗糙的pillar划分,加上更多的特征提取,可以有比较好的表现。

网络结构:没有特殊针对点云去设计网络结构,重点关注的是增加感受野。

 基于如上的分析,本文提出了PillarNeXt的网络结构,可以在性能和表现上达到一个均衡的效果。

总结下来主要的贡献:

1. Our findings challenge the common belief by showing that pillar can achieve comparable 3D mAP and better bird’s eye view (BEV) mAP compared to voxel, and substantially outperform multi-view fusion in both 3D and BEV mAP.

2. Inspired by the success of 2D object detection, we find that enlarging receptive field is crucial for 3D object detection. With minimal adaptions, our detectors outperform existing methods with sophisticated designs for point clouds.

3.Our networks with appropriate training achieve superior results on two large-scale benchmarks.

2. 网络结构

2.1 Grid Encoder

Pillar

Voxel

MVF

2.2 Backbone and Neck

ResNet-18 + SparseConv for pillar or mvf

3D SparseConv for voxel

neck: ASPP

2.3 Head

Centerhead

3. 实验

NVIDIA TITAN RTX GPU

Our pillar size is 0.075m in x/y-axis (and 0.15m in z-axis for voxel based)

+ 使用的tricks

Neck

BiFPN

ASPP

Resolution

pillar的模型,在有同等算力,更多的trick的加持下,可以达到voxel一样的表现,而且能更快。

借鉴:aspp/bifpn 的neck对结果的提升;tricks;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值