【论文解读】Keypoints-Based Deep Feature Fusion for Cooperative Vehicle Detection of Autonomous Driving

最新推荐文章于 2024-01-29 19:03:37 发布

我叫两万块

最新推荐文章于 2024-01-29 19:03:37 发布

阅读量939

点赞数 18

文章标签：自动驾驶目标检测

本文链接：https://blog.csdn.net/lwk___123/article/details/135729941

版权

研究提出了一种名为FPV-RCNN的方法，通过3D目标检测和关键点融合来改善自动驾驶车辆间的集体感知，减少遮挡，提高精度和安全性。通过压缩CPM和定位纠错模块，该方法在数据共享和通信效率上表现出色，且在合成数据集上检测精度显著提升。

摘要由CSDN通过智能技术生成

（建议先了解 PV-RCNN之后再往下看）

摘要

研究车辆间共享集体感知信息(CPM)以减少遮挡，从而提高自动驾驶的感知精度和安全性。然而，高度精确的数据共享和低通信开销对集体感知来说是一个巨大的挑战，特别是当联网和自动驾驶车辆之间需要实时通信时。本文提出了一种基于三维目标检测器PV-RCNN的基于关键点的深度特征融合框架，称为fusion PV-RCNN(简称FPV-RCNN)，用于集体感知。为了压缩CPM大小，解决多车数据融合问题，我们引入了高性能的边界框建议匹配模块和关键点选择策略。此外，我们还提出了一种基于最大共识原则的有效定位纠错模块，以提高数据融合的鲁棒性。与鸟瞰(BEV)关键点特征融合相比，FPV-RCNN在用于集体感知的合成数据集COMAP上，在高评价标准(IoU 0.7)下，检测精度提高了约9%。此外，其性能可与共享过程中没有数据丢失的两条原始数据融合基线相媲美。此外，我们的方法还将CPM大小显著降低到0.3KB以下，因此比以前使用的BEV特征映射共享小约50倍。即使CPM特征通道进一步减少，即从128到32，检测性能也没有明显下降。我们的方法的代码可以在https://github.com/YuanYunshuang/FPV RCNN上获得。

引言

本文通过将已建立的框架PVRCNN扩展到集体感知场景，提出了一个更鲁棒的深度特征共享与融合框架。我们的框架使用PointNet和point set abstraction对从不同点云中选择的高精度3D关键点的多尺度接受域信息进行聚合，然后进行共享和融合以产生更准确的检测。与BEV关键点融合相比，减少了通信开销，我们的3D关键点融合仍然实现了更高的检测精度。
在这里插入图片描述
黄色虚线圈内的车辆与自我车辆(右上)共享CPM（Collective Perception Messages ）。根据与地面真实情况的对比，我们提出的3D关键点融合方法在提高自我车辆的检测方面明显优于BEV关键点融合方法。
主要贡献：

1)针对基于BEV特征融合的车辆协同检测方案边界盒定位精度低的问题，提出了一种三维关键点特征融合方案。
2)引入关键点选择模块，减少共享深度特征的冗余，降低通信开销。
3)提出了高效鲁棒的定位校正模块和边界框匹配模块，为后期的深度特征融合生成高质量的边界框建议。
4)我们提出的方法不仅在很大程度上优于目前使用BEV特征融合进行集体感知的方法，而且还大规模地减少了CPM数据量。

方法

Problem formulation

我们以自我为中心的方式提出集体感知问题。在自我车辆C0的通信范围Rc内，Nv个合作CAV{C1，C2，…CNv}以及自我CAV在时间t生成了点云集合PC={PC0，PC1，…，PCNv}。基于PCi检测到的Ni车辆的边界框（BBoxes）被称为proposals，并记为Bi={（bj，sj）|j=1，…，Ni）}。Bi中的每个实例都是一对，包含一个检测到的车辆b j=（x，y，z，w，l，h，r）及其相应的检测置信度sj。在这个符号中，xyz表示BBox中心，wlh表示维度，r∈[-π，π]表示方向。在我们提出的框架中，协作CAV Ci（1≤i≤Nv）生成并向自我CAV C0共享CPMi，CPMi包含Bi、所选择和聚合的深度特征信息Fi以及用于定位误差校正的Ki个关键点的坐标。然后，自我车辆C0将接收到的CPM的信息与本地信息融合，并生成BBox的最终精细预测。

在这里插入图片描述

3D Keypoints deep features fusion

a）特征提取：为了提取点云的三维特征，我们采用了PV-RCNN中的基于体素的稀疏CNN骨干网络，因为它的效率和准确性很高。该网络如图3所示。首先对原始点云进行体素化，然后将其传递到3D稀疏卷积块。对原始体素特征进行编码，并对其进行8×下采样以获得3D深度特征。然后，来自最后一个稀疏卷积层的特征被压缩并投影为BEV特征。
在这里插入图片描述

b）特征选择和编码：自我检测模块采用CIA-SSD( Confident IoU-Aware Single-Stage Object Detector From Point Cloud)的检测头，因为它结构简单，可以生成比PV-RCNN中的建议生成模块更好的建议。此外，CIA-SSD用IOU校准检测分数，这对于我们在使用分数进行合并的算法中的匹配至关重要。该模块生成proposals Bi，该proposals Bi然后用于选择特征点。只有proposals中的特征点才会被选择、进一步编码并压缩为CPM格式，以减小CPM大小。
特征选择的细节如图3所示。

步骤1至2: 最远点采样（FPS）用于对预定义数量的Nkpts均匀分布的稀疏关键点进行采样。
步骤3至4: 基于选定的关键点，PV-RCNN中采用了具有相同参数的VSA（(Voxel Set Abstraction)）模块来聚合每个选定关键点的深度特征。该模块使用PointNet为每个关键点聚合不同分辨率和抽象级别的相邻体素特征。然后将聚合的关键点特征拆分为两条路径。
- 在第一条路径上，通过仅选择proposal Bi内的关键点来进一步对这些点进行下采样，以生成CPM。
- 在第二条路径上，它们被分类并选择用于定位误差校正，对于点云PCi，我们用CAV Ci的传感器姿态、proposal Bi、关键点的坐标Fi特征和Ki定位误差校正的关键点坐标组成CPMi

c）融合和检测：在融合步骤中，自车辆将所有接收到的proposals框和关键点转换到相同的局部坐标系。然后使用算法1对变换后的提议进行聚类和合并。

步骤1-5：如果集合B中的两个proposals的IoU高于预定义阈值（例如，0.3），则将它们聚类到相同的子集Ck中。
步骤8-13：在每个Ck中，我们首先将每个BBox bi的方向ri与该簇中所有BBox的主方向对齐，以防止由冲突的BBox方向引起的错误定向合并。
步骤14-16：最后，我们通过用预测置信度si加权BBox参数，将每个聚类中的BBox合并为一个单独的proposals。在合并每个集群中的BBox后，我们最终得到K merged proposals，这些提议被收集在集合M中。

如图c）所示，通过聚合该proposals周围的信息，即来自不同CPM（蓝色和橙色）的相邻关键点（深色点），对合并的proposals M（黑匣子）进行细化。

这种聚合是通过PV-RCNN最初提出的基于VSA的RoI网格池模块实现的。它将proposals框划分为规则网格，并汇总每个网格中心的相邻关键点信息。然后，将聚合的网格特征拉伸为向量，并馈送到完全连接的层，以生成最终的合作检测结果，该结果包含正面和负面提议之间的二进制分类以及提议框细化回归。与PV-RCNN不同的是，我们用dropout替换了完全连接层中的批量归一化（BN）。由于每帧中多个点云的计算开销，我们在训练过程中只能将批量大小设置为一，这不满足BN的条件。

CPM compression

我们使用Draco 压缩编码的CPM特征，以便在比较共享原始特征映射和关键点特征的CPM大小时也考虑压缩，将特征图的2D点或3D关键点转换为PLY 文件格式，然后用Draco压缩该文件
【Draco】3D data compression. https://google.github.io/draco/
【PLY】PLY: Polygon File Format. http://paulbourke.net/dataformats/ply

Localization error correction

为了避免误差，我们

在BBox匹配之前引入定位纠错模块(算法1)。
我们在所选关键点的深度特征上添加语义分类头。
将关键点分为墙、栅栏、杆子、车辆和其他类别。在语义类的基础上，通过FPS的下采样，我们选择了所有极点的Kp点和墙壁和栅栏的Kfw点。除了Ci、Bi、Fi外，仅共享所选ki = Kp + Kfw点的x坐标和y坐标，以纠正定位误差。
根据所选的杆子、栅栏、墙和车辆中心的关键点，我们使用最大共识算法，以粗略的搜索分辨率找到相应的车辆中心和杆子点，然后利用这些对应关系计算准确的误差估计。我们不使用墙和栅栏点进行最终误差计算，因为对它们进行匹配会导致结果不准确。

【最大共识算法】The Maximum Consensus Problem: Recent Algorithmic Advances。在最大共识算法中，通常涉及多个数据样本，其中一些可能是错误的或者与其它样本不一致。算法通过迭代的方式，尝试找到在大多数样本中达成共识的模型或参数。这种方法的核心思想是通过排除或减小对结果影响较大的异常值，使得估计更加稳健和准确。

实验

COMAP数据集
在这里插入图片描述
Bbev：早期融合下的bev -关键点融合
Bfpvrcnn：早期融合下的3d -关键点融合

Nkpts表示FPS的关键点数，
Nch表示编码CPM特征的通道数。
Nv ={2,4}表示两种不同数量的合作车辆

在这里插入图片描述
横坐标是Nch

在这里插入图片描述

结论

在本文中，我们提出了一个高效的框架，称为fpv - rcnn，该框架以PVRCNN作为协同感知场景目标检测的基础网络，增加了关键点选择模块、带定位纠错的边界框建议匹配模块和关键点融合模块。与模拟数据集COMAP上二维BEV特征融合的对比表明，我们的方法在很大程度上提高了协同车辆检测的性能。与之前共享全BEV特征图的工作相比，我们的方法显著降低了CAV网络中实时通信的数据传输负载，并且由于噪声校正模块，我们的方法对定位噪声的鲁棒性更强。在未来的工作中，我们计划在现实世界的协作驾驶场景中评估我们的方法。

我叫两万块

关注

18
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫