URL
https://arxiv.org/pdf/2205.13764.pdf
TL;DR
FCOS-LiDAR: Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images
本文主要提出了lidar-based 的Range View视角下的3D目标检测方法。
主要亮点:
- range view, 只使用标准卷积;
- 在range view,使用了多帧,并且优化方法能有一个比较好的效果;
- Modality-wise Convolutions:通道重新排列;
- 检测头不共享权重;
Dataset/Algorithm/Model/Experiment Detail
网络主体跟模仿FCOS,(其实跟FCOS3D差不多),很多工作在前处理部分,在怎么得到range view image上。
笛卡尔坐标系投影到球坐标系跟其他做法差别不大。
Multi-round Range View Projection
作者发现多帧稠密化之后,range view下有很多的点碰撞,到最后有90%的点被丢弃,导致稠密化之后抽帧效果跟单帧差别不大。作者采用多次(5次效果最好)投影的方式,得到新的 range view image;
Modality-wise Convolutions
主要思路是把 [x,y,z] , [r,θ,φ] , [i] , [e] and [t] 这几个类型的通道按相同类型的放一起;实验结果如下:mAP涨点0.6~0.7,NDS涨点不多;
Untied Weights of Detection Heads
这里有一点比较有趣检测头不共享权重,image-based方法共享权重效果比较好;
整体网络:
大致跟FCOS3D挺像,backbone有不少修改比如: VR分辨率低减少下采样,使用空洞卷积,ResNet-50 four stages数量更改 (3,4,6,3) --> (4,4,1,1)等。
Experiment
Nuscenes test上效果比centerpoint好
Thoughts
在bev-based方法火热的情况下,出现了一篇range view的方法并且效果还不错,近期range view的工作确实比较少,上次比较有印象的还是RangeDet。
这篇文章的一个目的也是为了避免使用3D卷积,3D稀疏卷积。还把multi frame用上了并且用好了,感觉这一块还能深挖一下。
然后检测头不共享权重似乎也可以深挖一下。