【3D 目标检测】TANet: Robust 3D Object Detection from Point Clouds with Triple Attention

最新推荐文章于 2024-02-21 02:00:00 发布

J.Wang_China

最新推荐文章于 2024-02-21 02:00:00 发布

阅读量1.3k

点赞数 4

分类专栏： 3d目标检测文章标签：深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/qq_36380978/article/details/120692096

版权

3d目标检测专栏收录该内容

11 篇文章 11 订阅

订阅专栏

一核心思想

本文提出的TANet方法，在pedestrain上表现很好。主要应用triple attention方法，对目标的特征进行权重的调整。网络主要分为两个框架，一个是Triple Attention框架和Coarse-to-Fine Regression框架。

1、Triple Attention。结合channel-wise注意力、point-wise注意力和voxel-wise注意力来增强目标的关键信息，并抑制不稳定的点。其中channel-wise注意力用于判断每个voxel中哪些channel更加重要；point-wise注意力用于判断一个体素中哪些point更加重要；voxel-wise注意力用于判断在所有voxel网格中哪些网格更加重要。

2、 Coarse-to-Fine Regression。采用两阶段回归的方法，将粗略回归的输出bbox作为精确回归的anchor，模块在不过度消耗计算成本的情况下提升定位准确率。

整个pipeline如下图所示：

二核心步骤

2.1 Stacked Triple Attention

本文主要借鉴PointPillars的划分网格点的操作，不对Z轴上进行grid划分。令N和C分别代表每个voxel中所含point的最大值和每个point feature的channel。令V表示样本划分的体素网格，K表示这个这个样本中划分的voxel的数量，则。表示V中的第K个体素。这边需要注意：每一个TA Module可以表示为类似于VFE的结构，也就是形成体素特征的结构，只是加上Triple Attention机制。对于每一个TA Module中均有channel-wise注意力、point-wise注意力和voxel-wise注意力。

2.1.1 Point-wise Attention

首先对每一个point feature，按照channel维度进行max pooling操作，得到，然后按照得到最终的point-wise attention参数。其中是ReLU activation function。

2.1.2 Channel-wise Attention

与上述类似，按照point的个数方向进行max pooling操作，得到，然后按照得到最终的channel-wise attention参数。其中是ReLU activation function。

通过2.1.1和2.1.2，就可以得出第k个voxel的前两个attention参数，也就是最终的这个voxel的注意力参数:,其中表示sigmoid function。

由此得出上图的上半部分的最终feature，也是第k个voxel的上半部分的特征，这个点乘表示矩阵对应位置相乘。

2.1.3 Voxel-wise Attention

上图的下半部分，Voxel center是每个voxel内所有点的坐标平均数。之后通过全连接层转化到高维空间空间，然后与上部分得到每个voxel 的特征一一对应相连。

Voxel-wise attention为：,其中表示通过两层全连接压缩第k个voxel的channel-wise和point-wise得到的特征。(猜测这里应该是在channel-wise上用到了max pooling操作，将channel-wise压缩到1维，之后应该也用到了sigmoid function。)

最终，得到这个TAModule(Triple Attention Module)对于每一个voxel的输出。

2.1.4 Stacked TA

正如总框架图所示，对于每个TA模块，我们将其输出与输入连接/求和，以融合更多的特征信息。然后通过全连通层获得高维特征表示。

最后采用max pooling操作聚合每个体素的所有点特征，将其作为CFR的输入。

2.2 Coarse-to-Fine Regression

这一个框架没有非常新颖的地方，对于每一个Block的ouput的维度分别为:，然后上采样为。

CR module会先在anchor的基础上得到coarse的bbox, FR module会优化 coarse bbox得到fine bbox。

2.3 Loss Function

其中，表示anchor框底部的对角线长度。

上标与分别表示CR module和FR module。

三总结

1、借鉴NLP和图像领域较火的注意力机制，采用此类万金油模块提取被关注目标的特征信息，设计了针对点云特性的Triple Attention模块，该模块联合考虑通道注意力、点注意力和体素注意力，并执行堆叠操作从而获得多级特征注意力，进而得到对象的判别表示；

2、考虑到在在噪声环境下，仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制，基于粗糙回归结果，利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图，并细化基于融合后的跨层特征图实现，从而得到更精细的估计结果。

3、该方法在难度较高的噪声环境中取得了不错的实验结果，在 KITTI 基准数据集上的量化比较结果表明，TANet 方法获得了当前最优性能，且其推断速度很快。

该文主要解决了前面提到的两个问题：提高了难例检测的准确率；增强检测在噪声环境下的鲁棒性。

虽然实验结果的提升并没有太大的飞跃，但是这种注意力机制模块属于即插即用型，完全可以集成到其他更先进的网络结构中。二级回归的思想有点类似于Faster RCNN系列相对于YOLO系列的差别，在图像的两阶段检测中就是在第一阶段预测出前后背景，第二阶段针对某区域的前景在做位置的回归。

参考文献

[1] Liu Z , Zhao X , Huang T , et al. TANet: Robust 3D Object Detection from Point Clouds with Triple Attention[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):11677-11684.

J.Wang_China

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【3D 目标检测】TANet: Robust 3D Object Detection from Point Clouds with Triple Attention

一核心思想本文提出的TANet方法，在pedestrain上表现很好。主要应用tripleattention方法，对目标的特征进行权重的调整。网络主要分为两个框架，一个是TripleAttention框架和Coarse-to-FineRegression框架。1、Triple Attention。结合channel-wise注意力、point-wise注意力和voxel-wise注意力来增强目标的关键信息，并抑制不稳定的点。其中channel-wise注意力用于判断每个voxel中哪些cha...
复制链接

扫一扫