【论文阅读】【3d目标检测】Voxel Transformer for 3D Object Detection

最新推荐文章于 2023-11-27 19:55:38 发布

Lukas88664

最新推荐文章于 2023-11-27 19:55:38 发布

阅读量3.1k

点赞数

分类专栏：论文阅读文章标签：自动驾驶计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/hgj1h/article/details/124349110

版权

论文阅读专栏收录该内容

37 篇文章 11 订阅

订阅专栏

论文标题：Voxel Transformer for 3D Object Detection

iccv2021
现在点云的做法大多是在点云上进行例如首先将点云group化然后进行分组地transformer 而这篇文章提出了一种基于voxel的transformer 可以应用于基于voxel的检测器上方便进行voxel 3d环节的提取全局特征。
老规矩上图！
在这里插入图片描述
可以看出文章的主要创新之处在于3d的backbone 这就意味着我们可以将这个模块应用到所有的基于voxel的一阶段二阶段检测器上面。
点云voxel的3d卷积主要分为两个类别的处理：sparse and submanifold。
他们的操作也是基本一样的除了attending voxel不同而已，这两种类别的3d操作可以先参考SECOND 三维目标检测器。
简单的来说就是用sparse进行下采样用submanifold在保持稀疏度的情况下进行3d卷积。
对于非空的voxel 我们对于attending voxel(什么是attending voxel呢我们下面进行定义)进行transformer操作位置编码选择相对位置编码有transformer基础的同学看一下下面的公式就明白~
在这里插入图片描述

对于submanifold层来说
它的querying voxel就所有的非空voxel ，那么首先对于他们进行两种attention操作输出结果与输入进行相加（一个res层操作）随后进行batch Norm。再输入到前向传播层进行submanifold卷积再一个res层 batch norm层最后relu激活然后进行proj 注意的是我们这里使用的是批量norm 且取消了神经元的随机识货作者认为这样是会帮助学习过程的。（文中提到的两种attention 我们在下面进行解释）
在这里插入图片描述

对于sparse层来说
它需要在一些空的voxel上进行querying操作而这些voxel是没有feature的我们便采用了一个估计函数文章中说可以对于attending voxel进行插值等操作网络中则直接采用 max pool 显然经过自注意力层输出结果已经与输出的结构有所不同所以网络框架就是取消了前面的一个res层。
在这里插入图片描述
接着我们来解释一下两种attention模块
这两种attention模块主要是由attend voxel的不同来进行划分的
local attention
参与此模块的voxel是我们当前的query voxel的附近的voxel 大概就是一个卷积大小内的所有非空voxel
在这里插入图片描述
对他们进行一个transformer操作，显然对于当前query voxel来说他的feature融合是结合了当前感受野内的所有voxel 而transformer相对于卷积来说更能接受来自附近的feature。

dilated attention
这一部分的卷积则可以参考稀疏卷积名字也是类似的主要是为了扩大感受野：
在这里插入图片描述
文中说一个稀疏attention经过合理的attending voxel选择可以使得query范围达到15m。
最后可以结合文章的图理解一下上述的卷积：

经过上面的两项卷积操作我们便实现了localfeature和较宽大感受野的feature的融合。
随后作者还提出了一种voxel query的快速取non empty voxel的方法主要思想就是把非空voxel取出来进行一个编码后面要对某个voxel进行attention处理时直接对于attending voxel取他们的编码就行这样模型复杂度就显著降低了：
在这里插入图片描述
实验结果很好：

消融实验做了不同卷积的必要性对比

随机失活层的必要性：

attending voxel的数目

最后比较了相对于传统模型的推理速度与大小

第一次看到用voxel做trans 比较新颖

Lukas88664

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】【3d目标检测】Voxel Transformer for 3D Object Detection

论文标题：Voxel Transformer for 3D Object Detectioniccv2021现在点云的做法大多是在点云上进行例如首先将点云group化然后进行分组地transformer 而这篇文章提出了一种基于voxel的transformer 可以应用于基于voxel的检测器上方便进行voxel 3d环节的提取全局特征。老规矩上图！可以看出文章的主要创新之处在于3d的backbone 这就意味着我们可以将这个模块应用到所有的基于voxel的一阶段二阶段检测器上面。点
复制链接

扫一扫