如何提高3D点云目标检测的难例精度？

最新推荐文章于 2023-09-15 00:32:39 发布

3Ｄ视觉工坊

最新推荐文章于 2023-09-15 00:32:39 发布

阅读量1.9k

点赞数

文章标签：算法人工智能计算机视觉编程语言深度学习

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

文章导读

本文是一篇将注意力机制应用在点云目标检测中的文章《TANet: Robust 3D Object Detection from Point Clouds with Triple Attention》，通过三元注意力机制强化目标信息，并用二级回归的方法提高定位精确度。

前沿
核心思想
框架结构
实现细节
要点分析
思考展望

前沿

3D点云目标检测通常采用三种策略：

1. 基于原始点云的方法，设计网络提取特征，然后用两阶段检测网络估计结果；

2. 基于体素的方法，将点云转换成规则的体素网格，然后采用3D卷积做目标检测；

3. 基于鸟瞰图的方法，将3D点云编码成2D图像的方式，用图像目标检测的思路做目标检测。

但是在复杂场景下的3D点云目标检测效果仍然不佳：

1. 难以检测的对象（如行人）的检测准确率不够好；

2. 添加额外的噪声点后，现有方法的性能迅速下降；

主要产生的原因如下：

1. 行人等小目标的体积小于车辆，激光雷达扫描到目标上的有效点较少。

2. 行人所处的环境有大量可变背景物体（如树、灌木丛、电线杆等），在前景有效点较少的情况下，背景的复杂很大程度影响目标检测效果。

核心思想

针对以上的分析，本文设计了两个新颖的模块来提高网络的鲁棒性：

1. Triple Attention。结合通道注意力、点注意力和体素注意力来增强目标的关键信息，并抑制不稳定的点。其中通道注意力用于判断每个体素中哪些通道更加重要；点注意力用于判断一个体素中哪些点更加重要；体素注意力用于判断在所有体素网格中哪些网格更加重要。

2. Coarse-to-Fine Regression。采用两阶段回归的方法，将粗略回归的输出bbox作为精确回归的anchor，模块在不过度消耗计算成本的情况下提升定位准确率。

框架结构

本文首先将点云均匀分割成体素网格，然后用堆叠三元注意力模块分别处理每个体素，获得更具判别性的表达。之后用最大池化方法聚集每个体素内的点，从而为每个体素提取紧凑的特征表示。最后使用二次回归模块生成最终的 3D 边界框。如下图所示：

实现细节

1. Triple Attention

三元注意力机制分别由点注意力，通道注意力，和体素注意力组成。如下图所示：

V是输入体素网格，首先使用Point-wise和Channel-wise得到融合的注意力特征图M，根据它得到注意力作用后的体素特征F1，体素注意力机制作用在F1上，得到最终体素特征F2。

2. Coarse-to-Fine Regression

粗糙到精细的回归是一种二级回归的方式，利用粗糙回归模块的输出外接框作为细化回归模块的锚点来执行 3D 边界框估计。如下图所示：

Fine Regression输入是Coarse Regression的中间变量。可以说Coarse Regression部分网络指导Fine Regression部分网络。

要点分析

1. 借鉴NLP和图像领域较火的注意力机制，采用此类万金油模块提取被关注目标的特征信息，设计了针对点云特性的Triple Attention模块，该模块联合考虑通道注意力、点注意力和体素注意力，并执行堆叠操作从而获得多级特征注意力，进而得到对象的判别表示；

2. 考虑到在在噪声环境下，仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制，基于粗糙回归结果，利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图，并细化基于融合后的跨层特征图实现，从而得到更精细的估计结果。

3. 该方法在难度较高的噪声环境中取得了不错的实验结果，在 KITTI 基准数据集上的量化比较结果表明，TANet 方法获得了当前最优性能，且其推断速度很快。