【3D 目标检测】TANet: Robust 3D Object Detection from Point Clouds with Triple Attention

一 核心思想

本文提出的TANet方法,在pedestrain上表现很好。主要应用triple attention方法,对目标的特征进行权重的调整。网络主要分为两个框架,一个是Triple Attention框架和Coarse-to-Fine Regression框架。

1、Triple Attention。结合channel-wise注意力、point-wise注意力和voxel-wise注意力来增强目标的关键信息,并抑制不稳定的点。其中channel-wise注意力用于判断每个voxel中哪些channel更加重要;point-wise注意力用于判断一个体素中哪些point更加重要;voxel-wise注意力用于判断在所有voxel网格中哪些网格更加重要。

2、 Coarse-to-Fine Regression。采用两阶段回归的方法,将粗略回归的输出bbox作为精确回归的anchor,模块在不过度消耗计算成本的情况下提升定位准确率。

整个pipeline如下图所示:

 

二 核心步骤

2.1 Stacked Triple Attention

 本文主要借鉴PointPillars的划分网格点的操作,不对Z轴上进行grid划分。令N和C分别代表每个voxel中所含point的最大值和每个point feature的channel。令V表示样本划分的体素网格,K表示这个这个样本中划分的voxel的数量,则表示V中的第K个体素。这边需要注意:每一个TA Module可以表示为类似于VFE的结构,也就是形成体素特征的结构,只是加上Triple Attention机制。对于每一个TA Module中均有channel-wise注意力、point-wise注意力和voxel-wise注意力

 

 

2.1.1 Point-wise Attention

首先对每一个point feature,按照channel维度进行max pooling操作,得到,然后按照得到最终的point-wise attention参数。其中是ReLU activation function。

2.1.2 Channel-wise Attention

与上述类似,按照point的个数方向进行max pooling操作,得到,然后按照得到最终的channel-wise attention参数。其中是ReLU activation function。

通过2.1.1和2.1.2,就可以得出第k个voxel的前两个attention参数,也就是最终的这个voxel的注意力参数:,其中表示sigmoid function。

由此得出上图的上半部分的最终feature,也是第k个voxel的上半部分的特征,这个点乘表示矩阵对应位置相乘。

 2.1.3 Voxel-wise Attention

 上图的下半部分,Voxel center是每个voxel内所有点的坐标平均数。之后通过全连接层转化到高维空间空间,然后与上部分得到每个voxel 的特征一一对应相连。

 Voxel-wise attention为:,其中表示通过两层全连接压缩第k个voxel的channel-wise和point-wise得到的特征。(猜测这里应该是在channel-wise上用到了max pooling操作,将channel-wise压缩到1维,之后应该也用到了sigmoid function。)

 最终,得到这个TAModule(Triple Attention Module)对于每一个voxel的输出

 2.1.4 Stacked TA

正如总框架图所示,对于每个TA模块,我们将其输出与输入连接/求和,以融合更多的特征信息。然后通过全连通层获得高维特征表示。

最后采用max pooling操作聚合每个体素的所有点特征,将其作为CFR的输入。

 2.2 Coarse-to-Fine Regression

 

 

这一个框架没有非常新颖的地方,对于每一个Block的ouput的维度分别为:,然后上采样为

 CR module会先在anchor的基础上得到coarse的bbox, FR module会优化 coarse bbox得到fine bbox。

 2.3 Loss Function

其中,表示anchor框底部的对角线长度。

  

上标与分别表示CR module和FR module。

三 总结

1、借鉴NLP和图像领域较火的注意力机制,采用此类万金油模块提取被关注目标的特征信息,设计了针对点云特性的Triple Attention模块,该模块联合考虑通道注意力、点注意力和体素注意力,并执行堆叠操作从而获得多级特征注意力,进而得到对象的判别表示;

2、考虑到在在噪声环境下,仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制,基于粗糙回归结果,利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图,并细化基于融合后的跨层特征图实现,从而得到更精细的估计结果。

3、该方法在难度较高的噪声环境中取得了不错的实验结果,在 KITTI 基准数据集上的量化比较结果表明,TANet 方法获得了当前最优性能,且其推断速度很快。

该文主要解决了前面提到的两个问题:提高了难例检测的准确率;增强检测在噪声环境下的鲁棒性。

虽然实验结果的提升并没有太大的飞跃,但是这种注意力机制模块属于即插即用型,完全可以集成到其他更先进的网络结构中。二级回归的思想有点类似于Faster RCNN系列相对于YOLO系列的差别,在图像的两阶段检测中就是在第一阶段预测出前后背景,第二阶段针对某区域的前景在做位置的回归。

 参考文献

[1] Liu Z ,  Zhao X ,  Huang T , et al. TANet: Robust 3D Object Detection from Point Clouds with Triple Attention[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):11677-11684.

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值