【论文阅读】【3d目标检测】voxel RCNN

最新推荐文章于 2024-07-27 09:45:00 发布

Lukas88664

最新推荐文章于 2024-07-27 09:45:00 发布

阅读量3.2k

点赞数

分类专栏：论文阅读文章标签：计算机视觉

本文链接：https://blog.csdn.net/hgj1h/article/details/124067315

版权

论文阅读专栏收录该内容

37 篇文章 11 订阅

订阅专栏

论文标题：Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
AAAI2021 香港中文大学
施老师的团队
本文是一个纯voxel的架构，作者讲这个故事主要是出于这么一个原因：位置精确的原始点对于高性能的3D目标检测并不重要，粗粒度的体素也足以完成高精度检测。
在这里插入图片描述
作者通过实验发现：3d卷积对于ap提升十分必要，所以基于bev的second 精度不尽人意。
且点与voxel的交互是很耗费时间的。
那么能不能设计一个完全基于voxel的网络，同时考虑3d的信息，这样既能兼顾ap又能兼顾检测速度。
这便是故事的起源。。。
老规矩，上图：
在这里插入图片描述
从上图可以看出，本文主要由三个部分组成：
3d的backbone、2d的backbone且在它上面生成roi、最后基于voxel的refinement。

基本可以发觉这个框架的主要计算量在3d卷积上。
那么如何提升ap则取决于voxel的feature挖掘上！这个我们详细解读。

首先对于原点云我们进行体素化，将他进行3d卷积，最后投影到bev进行roi提取。这一部分主要是参考的second，主要是生成roi方便后面的refinement。

对于体素规则地排列的特性，我们可以对之进行充分地利用来提升我们的网络推理速度：
我们将每个voxel视为一个个的point，类似于一个个的pixel。
对于每一个roi的grid point，我们可以采用曼哈顿距离寻找他的邻居点。
在这里插入图片描述

相比原来的球查询，时间复杂度由原来的O(N)变成了O(K)。
由于点云的稀疏性，我们对于grid point的邻居点不能单单用一个maxpool，于是作者首先进行每一层的mlp编码，最后进行concat拼接。
在这里插入图片描述
Accelerated Local Aggregation

加速操作。

Lukas88664

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】【3d目标检测】voxel RCNN

论文标题：Voxel R-CNN: Towards High Performance Voxel-based 3D Object DetectionAAAI2021 香港中文大学施老师的团队本文是一个纯voxel的架构，作者讲这个故事主要是出于这么一个原因：位置精确的原始点对于高性能的3D目标检测并不重要，粗粒度的体素也足以完成高精度检测。作者通过实验发现：3d卷积对于ap提升十分必要，所以基于bev的second 精度不尽人意。且点与voxel的交互是很耗费时间的。那么能不能设计一个完全基于
复制链接

扫一扫

专栏目录