论文标题:Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
AAAI2021 香港中文大学
施老师的团队
本文是一个纯voxel的架构,作者讲这个故事主要是出于这么一个原因:位置精确的原始点对于高性能的3D目标检测并不重要,粗粒度的体素也足以完成高精度检测。
作者通过实验发现:3d卷积对于ap提升十分必要,所以基于bev的second 精度不尽人意。
且点与voxel的交互是很耗费时间的。
那么能不能设计一个完全基于voxel的网络,同时考虑3d的信息,这样既能兼顾ap又能兼顾检测速度。
这便是故事的起源。。。
老规矩,上图:
从上图可以看出,本文主要由三个部分组成:
3d的backbone、2d的backbone且在它上面生成roi、最后基于voxel的refinement。
基本可以发觉这个框架的主要计算量在3d卷积上。
那么如何提升ap则取决于voxel的feature挖掘上!这个我们详细解读。
首先对于原点云我们进行体素化,将他进行3d卷积,最后投影到bev进行roi提取。这一部分主要是参考的second,主要是生成roi方便后面的refinement。
对于体素规则地排列的特性,我们可以对之进行充分地利用来提升我们的网络推理速度:
我们将每个voxel视为一个个的point,类似于一个个的pixel。
对于每一个roi的grid point,我们可以采用曼哈顿距离寻找他的邻居点。
相比原来的球查询,时间复杂度由原来的O(N)变成了O(K)。
由于点云的稀疏性,我们对于grid point的邻居点不能单单用一个maxpool,于是作者首先进行每一层的mlp编码,最后进行concat拼接。
Accelerated Local Aggregation
加速操作。