PillarNext 论文解读

huang_victor

已于 2023-09-15 12:37:56 修改

阅读量430

点赞数

文章标签：目标检测

于 2023-09-14 14:37:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huang_victor/article/details/132873926

版权

https://arxiv.org/pdf/2305.04925.pdf

摘要：

这篇文章以算力消耗为单位去评估了不同的局部点云聚合的方式，同等算力消耗下pillar的表现较好，这个打破了固有的印象；还发现了，图像中的好的2D的网络，直接用在点云上，也能大幅度提升检测效果。

1. 介绍：

点云的稀疏和不规则的特性，大多数都是先把点云转化为规则的形式，voxel, pillar, rangeview等。

一般会认为这些划分，会难免丢失很多信息。因此最近也有很多方法是结合point和grid的方式。

很多3D检测方法，都是在研究如何更好的去转化点云，提取局部的特征。但是比较少的在研究网络。2D的网络设计，也一直在有进展，而且2D的检测模型发展，更多的是在网络本身上。

本文作者觉得，点云的检测任务，关键的两点，局部特征提取的方法，网络结构需要重点研究。

局部特征提取的方法：作者以计算消耗为基础，进行了voxel,pillar, rangeview的对比；

相对粗糙的pillar划分，加上更多的特征提取，可以有比较好的表现。

网络结构：没有特殊针对点云去设计网络结构，重点关注的是增加感受野。

基于如上的分析，本文提出了PillarNeXt的网络结构，可以在性能和表现上达到一个均衡的效果。

总结下来主要的贡献：

1. Our findings challenge the common belief by showing that pillar can achieve comparable 3D mAP and better bird’s eye view (BEV) mAP compared to voxel, and substantially outperform multi-view fusion in both 3D and BEV mAP.

2. Inspired by the success of 2D object detection, we find that enlarging receptive field is crucial for 3D object detection. With minimal adaptions, our detectors outperform existing methods with sophisticated designs for point clouds.

3.Our networks with appropriate training achieve superior results on two large-scale benchmarks.

2. 网络结构

2.1 Grid Encoder

Pillar

Voxel

MVF

2.2 Backbone and Neck

ResNet-18 + SparseConv for pillar or mvf

3D SparseConv for voxel

neck: ASPP

2.3 Head

Centerhead

3. 实验

NVIDIA TITAN RTX GPU

Our pillar size is 0.075m in x/y-axis (and 0.15m in z-axis for voxel based)

+ 使用的tricks

Neck

BiFPN

ASPP

Resolution

pillar的模型，在有同等算力，更多的trick的加持下，可以达到voxel一样的表现，而且能更快。

借鉴：aspp/bifpn 的neck对结果的提升；tricks;

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

huang_victor CSDN认证博客专家 CSDN认证企业博客

码龄5年

37: 原创

106万+: 周排名

173万+: 总排名

2万+: 访问

: 等级

398: 积分

7: 粉丝

22: 获赞

2: 评论

103: 收藏

私信

关注

热门文章

分类专栏

最新评论

点云到图像的投影
躺躺11: 请问博主，这个有相关的开源代码吗？
bevfusion transformation 分析
一拳一个嘤嘤嘤怪: 博主，我看到论文中用swin transformer作为图像主干网络，但是在代码中并没有找到，请问你知道这部分代码在哪里吗
Lidar Object detection
burt_ry: 您好，非常感谢您文章的讲解。请问您关于CenterPoint++部分的详细资料是从哪里找到的，方便分享一下吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。