【论文阅读】【3d目标检测】voxel RCNN

论文标题:Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
AAAI2021 香港中文大学
施老师的团队
本文是一个纯voxel的架构,作者讲这个故事主要是出于这么一个原因:位置精确的原始点对于高性能的3D目标检测并不重要,粗粒度的体素也足以完成高精度检测。
在这里插入图片描述
作者通过实验发现:3d卷积对于ap提升十分必要,所以基于bev的second 精度不尽人意。
且点与voxel的交互是很耗费时间的。
那么能不能设计一个完全基于voxel的网络,同时考虑3d的信息,这样既能兼顾ap又能兼顾检测速度。
这便是故事的起源。。。
老规矩,上图:
在这里插入图片描述
从上图可以看出,本文主要由三个部分组成:
3d的backbone、2d的backbone且在它上面生成roi、最后基于voxel的refinement。

基本可以发觉这个框架的主要计算量在3d卷积上。
那么如何提升ap则取决于voxel的feature挖掘上!这个我们详细解读。

首先对于原点云我们进行体素化,将他进行3d卷积,最后投影到bev进行roi提取。这一部分主要是参考的second,主要是生成roi方便后面的refinement。

对于体素规则地排列的特性,我们可以对之进行充分地利用来提升我们的网络推理速度:
我们将每个voxel视为一个个的point,类似于一个个的pixel。
对于每一个roi的grid point,我们可以采用曼哈顿距离寻找他的邻居点。
在这里插入图片描述

相比原来的球查询,时间复杂度由原来的O(N)变成了O(K)。
由于点云的稀疏性,我们对于grid point的邻居点不能单单用一个maxpool,于是作者首先进行每一层的mlp编码,最后进行concat拼接。
在这里插入图片描述
Accelerated Local Aggregation
在这里插入图片描述
加速操作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值