原理图:
整体概述:
点密度感知体素网络 (PDV),是一种端到端的两阶段 LiDAR 3D 对象检测架构,旨在考虑这些点密度变化。通过体素点质心有效地定位 3D 稀疏卷积主干中的体素特征。通过使用核密度估计(KDE)和带有点密度位置编码的自我注意的密度感知 RoI 网格池模块聚合空间定位的体素特征。利用 LiDAR 的点密度与距离关系来优化最终的边界框置信度。
第一部分
点云数据输入后被划分体素,多层体素提取特征 ,经过RPN生成初始提案。
第二部分
计算四层体素的质心,并将四层体素的特征进行拼接。
第三部分
密度感知ROI模块的输入有两个,一是RPN生成的提案,一是点云体素特征。
1.首先基于初始边界框划分U*U*U的网格点(深绿色的点,只画了一层,应该立体还有三层。)
2.再使用KDE来估计每个网格点球查询中的局部特征密度。每个网格点球查询都添加了两种类型的特征:(a) 与球查询中心的相对偏移量,以及 (b) 通过 KDE 计算的每个点的概率密度,红色和蓝色分别表示较高和较低的概率密度。
3.最后使用使用 PointNet 多尺度分组 (MSG) 模块获取每个网格点的特征向量。
4.四层体素降采样,每层采用半径不同的r进行密度特征捕捉,最后四层特征向量进行拼接。
5.由于网格点之间缺乏相互依赖的关系,故引入自注意力机制。同时引入了位置编码,考虑了点云中的点密度。
点密度位置编码使用网格点的相对偏移量和每个网格体素中的点数(蓝色)作为输入。
第四部分
PDV 使用扫描对象上的距离和 LiDAR 点数之间的关系来预测最终边界框预测的置信度。共享 FFN 首先对来自密度感知 RoI 网格池模块的扁平化特征进行编码。然后,两个单独的 FFN 分支对 box refinement 和 box confidence 输出的特征进行编码。在框置信度分支中,还附加了两个特征来预测最终边界框的输出置信度。
总结:PDV最大的创新点应该在于密度感知ROI模块,通过自注意力机制引入了点密度信息,最后进行预测。