3D Detection paper reading

最新推荐文章于 2024-07-30 18:28:53 发布

烤粽子

最新推荐文章于 2024-07-30 18:28:53 发布

阅读量903

点赞数

分类专栏：计算机视觉 3D Detection 文章标签：自动驾驶深度学习 pytorch

本文链接：https://blog.csdn.net/Mao_Jonah/article/details/120461865

版权

计算机视觉同时被 2 个专栏收录

16 篇文章 2 订阅

订阅专栏

3D Detection

9 篇文章 1 订阅

订阅专栏

## URL paper: RangeDet:In Defense of Range View for LiDAR-based 3D Object Detection https://arxiv.org/abs/2103.10039

TL;DR

range view较多用于语义分割任务，在检测中应用较少，之前有的方法相对于BEV,Point View的方法性能差不少，本文分析了造成range view方法效果差的原因，并据此提出了RangeDet, 在range view方法中取得了一个比较大的提高。
在这里插入图片描述

Dataset/Algorithm/Model/Experiment Detail

文章认为造成之前range view方法效果较差的原因主要有两个

点云分布近处密集远处稀疏，近处远处目标尺度不同
提取特征的所使用的二维坐标系和输出的三维笛卡尔坐标系不一致

为了探索为什么基于距离视图的激光雷达探测结果不如其他表示形式？作者检查了当前基于距离视图的检测器的设计，发现了几个被忽视的事实（range view表现不好的原因）：

range view中物体尺寸变化较大，近大远小
range view中提取特征的2D卷积使用2D 坐标，然而输出是3D空间；
range view提取的特征更为稠密，但是先前的range view方法没有利用上这点

针对这些问题，文章分别提出了Range Conditioned Pyramid, Meta-Kernel, weighted Non-Maximum Suppression。

Range Conditioned Pyramid
2d 检测的特征金字塔主要是对不同scale的物体采取不同的策略，在不同的level上进行检测。而range view是柱坐标，按照远近range来放置，将0-80m的距离分为[0, 15), [15, 30), [30, 80]三个区间,不同的区间采用不同的特征图来检测。

Meta-Kernel Convolution
文章认为近处和远处的卷积核覆盖的范围不同应该使用不同的权重
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tROVL1Qv-1632483725612)(upload://e4UoUXbjaoEc3hO1R05ns5lC5VJ.png)]

整体结构：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VnY98wHD-1632483725613)(upload://9awpNllkyZ1BnUL2uC0jUDkmMoe.png)]

Waymo数据集上的结果比较
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c5GeSDz1-1632483725617)(upload://7Nrs98HVxlFChh9aW28nBVGj7cQ.png)]

Thoughts

3D检测中加FPN效果提升不大，在BEV上改动是一个思路，在点云空间改动也是一个思路，多考虑在range上的差别。

range view实际上更适合物理旋转式扫描的激光雷达的特殊view，其扫描出来的坐标系更像是柱坐标系。文章的方法针对range view取得了比较大的提高，但是目前很多雷达采用了固态激光雷达。虽然固态激光雷达也有不少缺点，但是具有小型化、低成本的优势，而且近些年发展很快是未来的一个趋势。个人认为目前不需要在range view上花费太多精力。