一、论文主要出发点
3D目标检测的性能受限于3D卷积的局部感受野。
Transformer在3D检测领域效果很好,但由于算力限制,已有的工作在pillar内,或将voxel分组在组内进行特征交互,阻碍了他们捕捉更远程的依赖关系。
线性RNN算子的计算量随着输入序列长度线性增加,这比transformer好很多,其某些算子如Mamba和RWKV在大模型方面甚至和transformer打平。这对于将来3D检测领域统一的多模态大模型有很大的启发意义。
二、论文的主要创新点
1.在基于窗口的框架中对分组特征进行线性RNN操作,简称LION。
2.主要创新点在于3D骨干网络的设计
三、具体内容