TANet论文解析

最新推荐文章于 2024-06-01 10:04:04 发布

思绪零乱成海

最新推荐文章于 2024-06-01 10:04:04 发布

阅读量2.3k

点赞数 1

分类专栏：点云处理深度学习论文解读文章标签：激光点云 3D目标检测感知

本文链接：https://blog.csdn.net/neil3611244/article/details/113881364

版权

深度学习同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

点云处理

8 篇文章 6 订阅

订阅专栏

论文解读

4 篇文章 0 订阅

订阅专栏

文章导读

本文是一篇将注意力机制应用在点云目标检测中的文章《TANet: Robust 3D Object Detection from Point Clouds with Triple Attention》，通过三元注意力机制强化目标信息，并用二级回归的方法提高定位精确度。

前沿

3D点云目标检测通常采用三种策略：

1. 基于原始点云的方法，设计网络提取特征，然后用两阶段检测网络估计结果；

2. 基于体素的方法，将点云转换成规则的体素网格，然后采用3D卷积做目标检测；

3. 基于鸟瞰图的方法，将3D点云编码成2D图像的方式，用图像目标检测的思路做目标检测。

但是在复杂场景下的3D点云目标检测效果仍然不佳：

1. 难以检测的对象（如行人）的检测准确率不够好；

2. 添加额外的噪声点后，现有方法的性能迅速下降；

主要产生的原因如下：

1. 行人等小目标的体积小于车辆，激光雷达扫描到目标上的有效点较少。

2. 行人所处的环境有大量可变背景物体（如树、灌木丛、电线杆等），在前景有效点较少的情况下，背景的复杂很大程度影响目标检测效果。

核心思想

针对以上的分析，本文设计了两个新颖的模块来提高网络的鲁棒性：

1. Triple Attention。结合通道注意力、点注意力和体素注意力来增强目标的关键信息，并抑制不稳定的点。其中通道注意力用于判断每个体素中哪些通道更加重要；点注意力用于判断一个体素中哪些点更加重要；体素注意力用于判断在所有体素网格中哪些网格更加重要。

2. Coarse-to-Fine Regression。采用两阶段回归的方法，将粗略回归的输出bbox作为精确回归的anchor，模块在不过度消耗计算成本的情况下提升定位准确率。

框架结构

本文首先将点云均匀分割成体素网格，然后用堆叠三元注意力模块分别处理每个体素，获得更具判别性的表达。之后用最大池化方法聚集每个体素内的点，从而为每个体素提取紧凑的特征表示。最后使用二次回归模块生成最终的 3D 边界框。如下图所示：

实现细节

1. Triple Attention

三元注意力机制分别由点注意力，通道注意力，和体素注意力组成。如下图所示：

V是输入体素网格，首先使用Point-wise和Channel-wise得到融合的注意力特征图M，根据它得到注意力作用后的体素特征F1，体素注意力机制作用在F1上，得到最终体素特征F2。

2. Coarse-to-Fine Regression

粗糙到精细的回归是一种二级回归的方式，利用粗糙回归模块的输出外接框作为细化回归模块的锚点来执行 3D 边界框估计。如下图所示：

Fine Regression输入是Coarse Regression的中间变量。可以说Coarse Regression部分网络指导Fine Regression部分网络。

要点分析

1. 借鉴NLP和图像领域较火的注意力机制，采用此类万金油模块提取被关注目标的特征信息，设计了针对点云特性的Triple Attention模块，该模块联合考虑通道注意力、点注意力和体素注意力，并执行堆叠操作从而获得多级特征注意力，进而得到对象的判别表示；

2. 考虑到在在噪声环境下，仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制，基于粗糙回归结果，利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图，并细化基于融合后的跨层特征图实现，从而得到更精细的估计结果。

3. 该方法在难度较高的噪声环境中取得了不错的实验结果，在 KITTI 基准数据集上的量化比较结果表明，TANet 方法获得了当前最优性能，且其推断速度很快。

上图是本文在难例检测上与PointPillars的对比效果图。针对小目标的检测常规的网络会有较多的漏检和误检问题。

思考展望

该文主要解决了前面提到的两个问题：提高了难例检测的准确率；增强检测在噪声环境下的鲁棒性。

虽然实验结果的提升并没有太大的飞跃，但是这种注意力机制模块属于即插即用型，完全可以集成到其他更先进的网络结构中。二级回归的思想有点类似于Faster RCNN系列相对于YOLO系列的差别，在图像的两阶段检测中就是在第一阶段预测出前后背景，第二阶段针对某区域的前景在做位置的回归。

写作不易，觉得有用可以点个赞+关注，谢谢！

关注小编公众号，每天分享关于计算机视觉或无人驾驶感知方面的内容。

思绪零乱成海

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
TANet论文解析

文章导读本文是一篇将注意力机制应用在点云目标检测中的文章《TANet: Robust 3D Object Detection from Point Clouds with Triple Attention》，通过三元注意力机制强化目标信息，并用二级回归的方法提高定位精确度。目录前沿核心思想框架结构实现细节要点分析思考展望前沿3D点云目标检测通常采用三种策略：1. 基于原始点云的方法，设计网络提取特征，然后用两阶段.
复制链接

扫一扫

专栏目录