图像点云数据融合论文阅读（1）:如何看论文+物体检测（RCNN、Fast-RCNN、Faster-RCNN等）+LWSIS+MSMDFusion+ADNLC等七篇论文阅读

相机视图生成提案：
- 相机捕捉到的图像提供了丰富的视觉信息，可以通过卷积神经网络（CNN）提取出特征，并根据这些特征生成物体的候选框（即提案）。
- 这些提案通常是二维边界框，表示在图像平面上检测到的物体位置。
使用LIDAR进行3D定位：
- LIDAR通过激光束测距生成点云数据，能够精确地提供物体在三维空间中的位置。
- 在生成的提案基础上，利用LIDAR的点云数据进一步优化物体的3D位置和姿态。

局限性:缺乏联合推理、信息整合不足

按照级联次数分为多阶段法与单阶段法

2.2.3多阶段法——R-CNN系列

2.2.3.1R-CNN算法

相比传统方法，检测精度得到大幅度提升，但是速度太慢，原因是:

使用Selective Search生成候选区域非常耗时
一张图像上有~2K个候选区域，需要使用~2K次CNN来提取特征，存在大量重复计算
特征提取、图像分类、边框回归是三个独立的步骤，要分别训练，测试效率也较低

2.2.3.2SPP-Net算法

参考：【目标检测】SPP-Net算法_sppnet举例-CSDN博客，详细介绍了R-CNN与SPP-Net的区别

2.2.3.3Fast R-CNN

RolPooling层

为什么要使用RolPooling把不同大小的特征变成固定大小?

网络后面是全连接层（FC层)，要求输入有固定的维度
各个候选区域的特征大小一致，可以组成batch进行处理

相比R-CNN的改进

端到端的多任务训练
Fast R-CNNL比R-CNN快了200多倍，并且精度更高
生成候选区域算法（ Selective Search)非常慢（耗时2s )

2.2.3.4Faster R-CNN

改进Region proposals生成的耗时，核心：使用RPN替换SS算法

4、RPN，区域生成网络（Region Proposal Network，简称RPN）

1）作用：通过对输入特征图进行处理，生成一系列候选区域，这些区域被认为可能包含目标物体。与目标检测网络（如Fast R-CNN）集成在一起，形成一个端到端的训练框架，使得整个模型可以共同优化。

2）原理：

生成anchors–>softmax分类器提取positive anchors–>bbox regression回归positive anchors生成偏移量–>生成最终Proposals

几个参数理解

1、4k：坐标(x,y,w,h)注意，这里输出的是坐标偏移量

2、2k：二分类，因为这里是二分类判断positive和negative，所以该feature map上每个点的每个anchor对应2个值，表示目标和背景的概率（为什么有2个，是因为这里是用的softmax，这两个值加起来等于1；也可以用sigmoid，就只需要1个值了）

3、K: 是指由锚点产生的K个框；

更深入了解细节：Faster RCNN原理篇（三）——区域候选网络RPN（Region Proposal Network）的学习、理解-CSDN博客

目标检测相关知识点

1、假正例FP在目标检测任务中，它是指有真的目标的且也预测出了目标，但是目标的预测框没有满足阈值的数量。

原因：目标检测中，真阳性与假阳性的定义是根据IOU定的，大于设定值为真阳性，小于设定值为假阳性。这个阈值在PASCAL中设置为0.5。

2、Ground Truth：就是指正确打标签的训练数据 或 简单来说就是有效的正确的数据

目标的真实边界框（ground-truth bounding box）

3、在检测任务中，训练数据集的标签里会给出目标物体真实边界框所对应的$(x_1, y_1, x_2, y_2)$，这样的边界框也被称为真实框（ground truth box）

4、由模型预测出的边界框则称为预测框（prediction box）。它以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）

用的锚框尺寸选择方法有：

人为经验选取
k-means聚类
作为超参数进行学习

5、在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。

三、Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review

3.1摘要+索引术语

在过去的几年中，自动驾驶汽车得到了迅速的发展。然而，由于复杂和动态的驾驶环境，实现完全自主并不是一件轻而易举的事情。因此，自动驾驶汽车配备了一套不同的传感器，以确保强大，准确的环境感知。特别是，摄像头与激光雷达的融合正成为一个新兴的研究主题。然而，到目前为止，还没有关于基于深度学习的相机LiDAR融合方法的评论。为了弥补这一差距并激励未来的研究，本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。本文简要概述了图像和点云数据处理的深度学习。随后，深入回顾了摄像机LiDAR融合方法在深度完成、目标检测、语义分割、跟踪和在线跨传感器校准方面的应用，这些方法都是根据各自的融合级别进行组织的。此外，我们在公开可用的数据集上比较了这些方法。最后，我们发现了当前学术研究和实际应用之间的差距和挑战。基于这些观察，我们提供了我们的见解，并指出了有前景的研究方向。

索引术语:相机LiDAR融合、传感器融合、深度完成、目标检测、语义分割、跟踪、深度学习

3.2引言

在深度学习和传感器技术方面的突破推动了自动驾驶技术的快速发展提高道路安全、交通效率和个人机动性，然而，技术挑战和外感测器的成本限制了当前自动驾驶系统在受限和受控环境中的少量应用。一个关键的挑战是实时充分准确地了解车辆的3D周围环境，为此，利用具有互补特性的多种传感器来增强感知和降低成本的传感器融合已成为一个新兴的研究主题。

特别是，最近的深度学习进展显著提高了相机LiDAR融合算法的性能。相机和激光雷达具有互补的特性，这使得相机-激光雷达融合模型比其他传感器融合配置（雷达相机、激光雷达等）更有效、更受欢迎。更具体地说，基于视觉的感知系统在低成本下实现了令人满意的性能，通常优于人类专家、然而，单摄像头感知系统无法提供可靠的3D几何，而这对自动驾驶至关重要。另一方面，立体相机可以提供3D几何体，但这样做的计算成本很高，并且在高遮挡和无纹理环境中很难实现。此外，基于摄像头的感知系统在复杂或恶劣的光照条件下难以工作，这限制了其全天候能力。

相反，LiDAR可以提供高精度的3D几何，并且对环境光不变。然而，移动LiDAR受到低分辨率（16至128个通道）、低刷新率（10Hz）、恶劣天气条件（大雨、雾和雪）和高成本的限制。为了缓解这些挑战，许多研究将这两种互补的传感器结合在一起，并证明了比a-modal方法具有显著的性能优势。因此，本文重点回顾了当前用于相机LiDAR融合的深度学习融合策略。

相机激光雷达融合不是一件小事。首先，相机通过将真实世界投影到图像平面来记录，而点云保留了三维几何体。此外，在数据结构方面，点云是不规则的、无序的和连续的，而图像是规则的、有序的和离散的。点云和图像之间的这些特征差异导致了不同的特征提取方法。在图1中，比较图像和点之间的特征被显示出来。

之前关于多模态数据融合的深度学习方法的评论[12][13]涵盖了广泛的传感器，包括雷达、相机、LiDAR、超声波、IMU、里程表、GNSS和HD Maps。本文仅关注相机激光雷达融合，因此能够对各种方法进行更详细的综述。此外，我们还涵盖了更广泛的感知相关主题（深度完成、动态和静止物体检测、语义分割、跟踪和在线跨传感器校准），这些主题是相互关联的，在之前的综述中没有完全包含[13]。本文的贡献总结如下：

据我们所知，本文是第一篇针对自主驾驶中基于深度学习的图像和点云融合方法的综述，包括深度完成、动态和静态目标检测、语义分割、跟踪和在线跨传感器校准。
本文根据融合方法对方法进行了组织和回顾。此外，本文还介绍了最新（2014-2020年）的最新相机LiDAR融合方法概述和性能比较
本文提出了一些被忽视的开放性问题，如开放集检测和传感器无关框架，这些问题对于自主驾驶技术的实际部署至关重要。此外，还总结了开放挑战的趋势和可能的研究方向。

本文首先在第二节中简要概述了图像和点云数据的深度学习方法。第三节至第八节分别介绍了基于激光雷达的相机深度补全、动态目标检测、静态目标检测、语义分割、目标跟踪和在线传感器校准。第七节讨论了趋势、开放的挑战和有希望的方向。最后，第八节给出了总结。图2显示了本次调查的总体结构和相应主题。

PointNet是点云直接学习的先驱之一[31][30]，它采用独立的T-Net模块来对齐点云，并使用共享的MLP来处理单个点，以提取每个点的特征。PointNet的计算复杂度随着输入数量的增加而线性增加，与基于体积的方法相比，它更具可扩展性。为了实现置换不变性，通过对所有点都相同的共享MLP提取逐点特征。这些特征通过对称操作（即最大池化）聚合，这些操作也是置换不变的。

但是，PointNet无法提取不同级别的局部点间几何图形。为了缓解这一挑战，Qi等人[30]扩展了PointNet，通过将点分组到多个集合中并在本地应用PointNet来从不同级别提取特征。为了降低PointNet++[30]的计算和内存成本，RandLA Net[39]分层堆叠了随机点采样模块和基于注意力的局部特征聚合模块，以在保持高效率的同时逐步增加感受野

与基于PointNet的方法不同，点之间的空间关系是在逐点卷积中显式建模的。逐点卷积旨在将标准的2D离散卷积推广到连续的3D空间。主要的挑战是用连续权重函数代替标准卷积中的离散权重滤波器。使用PointConv[40]中的MLP和KPConv[38]和PCNN[33]中的相关函数来近似此连续权重函数。更具体地说，PCNN[33]将卷积核定义为具有权重的3D点。取核点和输入点坐标的高斯相关函数用于计算任何给定3D坐标处的加权矩阵。KPConv[38]遵循了这一想法，但使用了线性相关函数。此外，KPConvs[38]被分层应用于局部点补丁，这与标准CNN的概念相似。在3D连续空间中，输入点x 2 R 3处的一般逐点卷积F定义为：

这里h是每点核函数，它在给定输入点和核点的坐标的情况下计算加权矩阵。xi和fi是x的第i个相邻点及其对应的特征（强度、颜色等）。Nx是使用KNN或半径邻域确定的输入点x的所有相邻点。

关于深度学习简评的介绍不做概述

3.3深度完成

深度完成旨在将稀疏的不规则深度向上采样到密集的规则深度，这有助于下游感知模块。深度完成可以减少激光雷达扫描中点的剧烈不均匀分布。例如，由一手掌满点表示的远距离物体被上取样以匹配它们的近距离对应物。为了达到这个目的，经常使用高分辨率图像来引导三维深度上采样。深度完成任务可以表示为:

图 3 给出了深度补全模型的时间轴及其相应的融合级别。深度补全模型在 KITTI 深度补全基准[41]上的比较结果见表一

A. 单摄像机和激光雷达融合

图像引导深度完成背后的思想是，密集的 rgb/颜色信息包含相关的3d 几何。图像引导深度完成背后的思想是，密集的 rgb/颜色信息包含相关的3d 几何。

1）信号级融合：2018年，Ma等人[42]提出了一种基于ResNet[52]的自动编码器网络，该网络利用RGBD图像（即与稀疏深度图连接的图像）来预测密集深度图。然而，这种方法需要像素级的深度地面真实感，这很难获得。为了解决这个问题，Ma等人[43]提出了一种基于模型的自监督框架，该框架只需要一系列图像和稀疏深度图像进行训练。这种自我监督是通过使用稀疏深度约束、光度损失和平滑度损失来实现的。然而，这种方法假设物体是静止的。此外，得到的深度输出是模糊的，输入深度可能无法保留。为了实时生成清晰的密集深度图，Cheng等人[44]将RGB-D图像馈送到卷积空间传播网络（CSPN）。该CSPN旨在直接提取图像相关的亲和力矩阵，在更短的运行时间内在关键测量中产生更好的结果。在CSPN++中，Cheng等人[45]提出动态选择卷积核大小和迭代次数以减少计算量。此外，CSPN++采用加权组装来提高其性能。
2）特征级融合：Jaritz等人[46]提出了一种自动编码器网络，该网络可以在不应用有效性掩码的情况下，从稀疏深度图和图像中执行深度完成或语义分割。图像和稀疏深度图首先由两个并行的基于NASNet的编码器处理[53]，然后将它们融合到共享解码器中。这种方法可以在非常稀疏的深度输入（8通道LiDAR）下实现不错的性能。Wang等人[54]设计了一个可集成模块（PnP），该模块利用稀疏深度图来提高现有基于图像的深度预测网络的性能。该PnP模块利用从稀疏深度计算的梯度来更新由现有深度预测网络生成的中间特征图。Eldesokeyet al [47]提出了一个非制导深度补全框架，该框架并行处理图像和非常稀疏的深度图，并将它们组合在一个共享解码器中。此外，规范化卷积被用来处理高度稀疏的深度和传播置信度。Valadaet al. [55]将一阶段特征级融合扩展到网络深度不同的多阶段。同样，guidenet [48]在编码器的不同阶段将图像特征融合到稀疏深度特征中，引导稀疏深度的上采样，从而在 kitti 深度完成基准测试中获得最佳性能。这些方法的限制是缺乏具有密集的深度地面真相的大规模数据集。
3）多级融合：Van Gansbeke等人[49]在图像引导深度完成网络中进一步结合了信号级融合和特征级融合。该网络由全局和局部分支组成，用于并行处理RGB-D数据和深度数据，然后根据置信图进行融合

B. 立体摄像机和激光雷达融合

与 rgb 图像相比，立体摄像机的高密度视差，包含了更丰富的地面真实三维几何。另一方面，激光雷达深度虽然稀疏，但精度较高。这些互补的特点使立体激光雷达融合的基础上完成深度模型产生更准确的密集深度。然而，值得注意的是，立体声摄像机在高遮挡、无纹理的环境中，范围有限，难以实现自动驾驶，这使得它们不那么理想

1)特征级融合: Park等人[9]的开创性工作之一是使用两阶段CNN从密集立体视差和点云计算高精度密集视差图。CNN的第一阶段利用激光雷达和立体视差产生融合视差。在第二阶段，将融合的视差和左RGB图像在特征空间中融合，以预测最终的高精度视差。最后，根据这种高精度视差重建3D场景。这种方法的瓶颈是缺乏大规模带注释的立体激光雷达数据集。LidarStereoNet[50]通过无监督学习方案避免了这一困难，该方案采用图像扭曲/光度损失、稀疏深度损失、平滑度损失和平面拟合损失进行端到端训练。此外，“反馈回路”的引入使得立体声立体声网络对噪声点云和传感器失准具有鲁棒性。同样，zhanget al. [51]提出了一个深度完备的自监督方案。损失函数包括稀疏深度、光度和平滑度损失。

3.4动态物体检测

3d目标检测的目标是在3d空间中定位、分类和估计定向的包围盒。这个部分致力于动态目标检测，其中包括常见的动态道路物体(汽车、行人、骑自行车的人等)。目标检测有两种主要方法: 顺序式和单步式。基于序列的模型包括一个提案阶段和一个按时间顺序排列的三维包围盒(bbox)回归阶段。在建议阶段，提出可能包含感兴趣对象的区域。在 bbox 回归阶段，根据从三维几何中提取的区域特征对这些方案进行分类。然而，序贯融合的性能受到每个阶段的限制。另一方面，一步模型由一个阶段组成，其中二维和三维数据以并行的方式处理。

图 4 和图 5 显示了三维物体检测网络的时间轴和典型的模型架构。表 II 列出了三维物体检测模型在 KITTI 三维物体检测基准[56]上的比较结果。表 III 总结并比较了动态物体检测模型。

A. 基于提案的连续模型

提出了一种基于二维提案的顺序模型，该模型利用现有的图像处理模型，在提案阶段利用二维图像语义。具体来说，这些方法利用图像对象检测器生成二维区域方案，这些方案被投射到三维空间作为检测种子。有两种投影方法可以将二维方案转换成三维方案。第一种方法是将图像平面上的边框投影到点云上，形成一个截锥形状的三维搜索空间。第二种方法将点云投影到图像平面上，生成具有点向二维语义的点云。

1)结果级融合: 结果级融合背后的直觉是使用现成的2D对象检测器来限制3D对象检测的3D搜索空间，这大大减少了计算量并提高了运行时间。然而，由于整个管道取决于2D对象检测器的结果，因此它受到基于图像的检测器的限制。

结果级融合的早期工作之一是FPointNets[57]，其中首先从图像生成2D边界框并将其投影到3D空间。由此产生的投影平截头体建议被馈送到基于PointNet[31]的检测器中，用于3D对象检测。Du等人[58]通过额外的提案细化阶段扩展了2D到3D提案生成阶段，这进一步减少了对背景点的不必要计算。在这个细化阶段，使用基于模型拟合的方法来过滤种子区域内的背景点。最后，将过滤后的点输入bbox回归网络。RoarNet[59]遵循了类似的想法，但在提案细化阶段采用了神经网络。首先使用几何一致性搜索[60]基于每个2D bbox生成多个3D圆柱体建议，这会产生比F-pointNet更小但更精确的截头体建议[57]。然后，这些初始的圆柱体提案由基于PointNet[30]的标头网络进行处理，以进行最终的细化。总之，这些方法假设每个种子区域只包含一个感兴趣的对象，但对于拥挤的场景和行人等小对象则不然。

针对上述问题，一种可行的解决方案是用二维语义分割代替二维对象检测器，用逐点种子方案代替逐区域种子方案。Yanget al. 的密集型基于点的对象检测器(ipod)[61]就是这方面的一项工作。在第一步中，利用二维语义分割过滤背景点;。这是通过投影点的图像平面和相关点与二维语义标签。得到的前景点云保留了上下文信息和精细分割位置，这对于区域建议和 bbox 回归是必不可少的。在随后的逐点建议生成和 bbox 回归阶段，使用两个基于 pointnet [30]的网络进行建议特征提取和 bbox 预测。另外，为了加快训练和推理速度，提出了一种新的标准“尖点”。在高遮挡或多对象的场景中，这种方法比其他最先进的方法具有显著的性能优势。

2)多级融合: 另一个可能的改进方向是结合结果级融合和特征级融合，其中一个工作是点融合[62]。点融合首先利用现有的2d 对象检测器生成2d bbox。这些 bbox 用于选择相应的点，通过投影点到图像平面，并定位通过 bbox 的点。最后，ResNet[52]和基于PointNet[31]的网络结合图像和点云特征来估计3d 对象。在这种方法中，图像特征和点云特征按照提案进行融合，最终得到3 d 目标检测，这有利于3 d bbox 回归。然而，它的建议阶段仍然是 amodal。在SIFRNet[63]中，首先从图像生成平截头体建议。然后将这些平截头体建议中的点云特征与其相应的图像特征相结合，以进行最终的3D bbox回归。为了实现尺度不变性，PointSIFT[64]被纳入网络。此外，SENet模块用于抑制信息量较小的特征。

3)特征层次的融合: 早期的尝试[75] ，[76]的多模态融合是在像素级，其中三维几何图形转换为图像格式或附加作为一个图像的附加通道。直观是将三维几何投影到图像平面上，利用成熟的图像处理方法进行特征提取。结果输出也在图像平面上，这对于在三维空间中定位物体是不理想的。2014年，Gupta等人提出了DepthRCNN[75]，这是一种基于RCNN[77]的架构，用于2D对象检测、实例和语义分割。它将微软Kinect摄像头的3D几何体编码在图像的RGB通道中，这些通道是水平视差，地面高度，以及重力角度(hha)。2015年，通过对齐3D CAD模型，扩展了深度RCNN[78]，用于3D对象检测，从而显著提高了性能。2016年，Gupta等人开发了一种新技术，用于在图像数据训练的网络和看不见的成对图像模态（深度图像）之间进行监督知识转移[76]。2016年，Schlosser等人[79]进一步利用学习2D CNN上的RGB-HHA表示进行行人检测。然而，HHA数据是从LiDAR的深度而不是深度相机生成的。作者还注意到，如果RGB和HHA的融合发生在网络的较深层，可以获得更好的结果。

密集 RGB 和稀疏深度之间的分辨率不匹配意味着只有一小部分像素有相应的点。因此，直接将 RGB 信息附加到点上会导致大部分纹理信息丢失，使融合变得毫无意义。为了缓解这一难题，PointPainting [66] 在按点融合之前提取了高级图像语义。具体来说，PointPainting [66] 沿用了 [61] 中将点投影到二维语义图的思路。但不是使用二维语义过滤非对象点，而是将二维语义作为附加通道简单地附加到点云上。

作者认为，这种技术使 PointPainting 变得非常灵活，因为它可以在这种融合数据上应用任何点云网络。为了证明这种灵活性，将融合点云输入多个现有的点云检测器，这些检测器分别基于 PointRCNN [80]、VoxelNet [14] 和 PointPillar [81]。然而，这将导致图像模型和激光雷达模型之间的耦合。这就要求在图像模型发生变化时重新训练激光雷达模型，从而降低了整体可靠性，增加了开发成本。

B. 基于 3D 提案的顺序模型

在基于三维提案的顺序模型中，三维提案直接从二维或三维数据中生成。省去了从二维到三维提案转换的过程，大大限制了三维物体检测的三维搜索空间。生成三维方案的常用方法包括多视角方法和点云体素化方法。基于多视角的方法利用点云的鸟瞰图（BEV）表示来生成三维方案鸟瞰图是首选的视角，因为它可以避免遮挡，并保留物体的方位和 x; y 坐标的原始信息。这些方位和 x; y 坐标信息对于三维物体检测至关重要，同时还能使 BEV 和其他视图之间的坐标转换变得简单易行。点云体素化将连续的不规则数据结构转换为离散的规则数据结构。这使得应用标准三维离散卷积和利用现有网络结构处理点云成为可能。缺点是会损失一些空间分辨率，其中可能包含细粒度的三维结构信息。

1) 特征级融合： MV3D [67]是根据 BEV 表征生成 3D 方案的先驱和最重要的工作之一。MV3D 根据像素化的自上而下的激光雷达特征图（高度、密度和强度）生成三维建议。然后将这些三维候选图投影到激光雷达正视图和图像平面上，以提取和融合区域特征，进行 bbox 回归。通过 ROI 池，在感兴趣区域 (ROI) 层面进行融合。

MV3D 有几个缺点。首先，在 BEV 上生成三维提案时，假设从该视点捕捉到的所有相关物体都没有遮挡。对于行人和骑自行车者等小物体实例来说，这一假设并不成立，因为它们可能被点云中的其他大物体完全遮挡。其次，小物体实例的空间信息会在连续卷积操作导致的特征图下采样过程中丢失。第三，以物体为中心的融合通过 ROI 池将图像和点云的特征图结合在一起，在此过程中会破坏细粒度的几何信息。此外，值得注意的是，冗余提案会导致在 bbox 回归阶段进行重复计算。为了减轻这些挑战，人们提出了多种方法来改进 MV3D。为了改进对小物体的检测，聚合视图物体检测网络（AVOD）[68] 首先利用来自 BEV 点云和图像的特征图改进了 MV3D [67] 中的提议阶段。此外，还采用了自动编码器架构，将最终的特征图向上采样到原始尺寸。这就缓解了在连续卷积操作中，小物体可能被降采样到一个 “像素 ”的问题。建议的特征融合区域建议网络（RPN）首先通过裁剪和调整大小操作，从多种模式（BEV 点云和图像）中提取等长特征向量。然随后进行 1 × 1 卷积运算，以降低特征空间维度，从而降低计算成本并提高速度。Lu 等人[69] 也使用了一种基于编码器-解码器的建议网络，该网络带有空间通道注意（SCA）模块和扩展空间高采样（ESU）模块。其SCA 可以捕捉多尺度的上下文信息，而 ESU 则可以恢复空间信息。

以物体为中心的融合方法[68][67]中的一个问题是，在 ROI 汇集过程中会丢失细粒度的几何信息。Liang 等人的 ContFuse[70]通过点式融合解决了这一信息丢失问题。这种点上融合是通过连续卷积[83]融合层实现的，这些融合层在网络的多个阶段将不同尺度的图像和点云特征连接起来。首先为点云 BEV 表示法中的每个像素提取 K 个最近邻点。然后将这些点投影到图像平面，以检索相关的图像特征。最后，在将融合后的特征向量输入 MLP 之前，根据其与目标 “像素 ”的几何偏移进行加权。然而，当激光雷达点稀疏时，点融合可能无法充分利用高分辨率图像。在文献[73]中，Liang 等人结合多种融合方法，如信号级融合（RGB-D）、特征级融合、多视角融合和深度补全，进一步扩展了点式融合。其中，深度补全利用图像信息对稀疏的深度图进行上采样，生成密集的伪点云，这种上采样过程缓解了稀疏点融合问题，从而促进了跨模态表征的学习。此外，作者认为多项互补任务（地面估计、深度补全和二维/三维物体检测）可以帮助网络实现更好的整体性能。然而，点/像素融合会导致 “特征模糊 ”问题。当点云中的一个点与图像中的多个像素相关联或相反时，就会出现 “特征模糊”，从而影响数据融合。同样，wang 等人[72]用稀疏非均质池化取代了 MV3D [67] 中的 ROI 池化，从而实现了多模态特征图之间的有效融合。

Sindagi 等人提出的 MVX-Net [71]介绍了两种按点或按体素融合图像和点云数据的方法。这两种方法都采用预先训练好的二维 CNN 进行图像特征提取，并采用基于 VoxelNet [14] 的网络来估计融合点云中的物体。在点式融合方法中，首先将点云投影到图像特征空间以提取图像特征，然后进行体素化并由 VoxelNet 处理。体素融合方法首先对点云进行体素化，然后将非空体素投影到图像特征空间，以提取体素/区域特征。这些体素特征只在 VoxelNet 的后期阶段附加到相应的体素上。与其他基于激光雷达的方法相比，MVX-Net 在 KITTI 基准测试中取得了最先进的结果，同时降低了假阳性和假阴性率。

结合体素化点云和图像的最简单方法是将 RGB 信息作为体素的附加通道。在 Song 等人 2014 年发表的论文[82]中，通过在体素化点云上滑动三维检测窗口实现了三维物体检测。分类由 Exemplar-SVMs 集合完成。在这项工作中，通过投影将颜色信息添加到体素中。Song 等人利用三维离散卷积神经网络进一步扩展了这一想法[84]。在第一阶段，首先用多尺度三维 RPN 处理体素化点云（由 RGB-D 数据生成），生成三维方案。然后，联合物体识别网络（ORN）对这些候选者进行分类，该网络将图像和体素化点云作为输入。然而，体积表示法会引入边界伪影，破坏细粒度的局部几何形状。其次，图像和体素化点云之间的分辨率不匹配使得融合效率低下。

C.一步式模型

单步模型在一个阶段内完成提议生成和方框回归。通过将提议和方框回归阶段合并为一个步骤，这些模型通常具有更高的计算效率。Meyer 等人[74] 将 LaserNet[85] 扩展为多任务和多模态网络，在融合图像和 LiDAR 数据上执行三维物体检测和三维语义分割。两个 CNN 以并行方式处理深度图像（由点云生成）和前视图像，并通过在图像平面上投影点来融合它们，从而关联相应的图像特征。这一特征图被输入激光网络，以预测边界框的每点分布，并将它们结合起来，形成最终的三维建议。这种方法效率很高，同时达到了最先进的性能。

3.5静态道路物体探测

本节重点回顾基于相机-激光雷达融合的静态道路物体探测方法的最新进展。静止道路物体可分为路面物体（如路面和道路标线）和非路面物体（如交通标志）。路面和路外物体为自动驾驶车辆提供法规、警告禁令和指引。图 6 和图 7 比较了车道/道路检测和交通标志识别（TSR）的典型模型架构。表 IV 列出了不同模型在 KITTI 道路基准[56]上的比较结果，并对这些模型进行了总结和比较。

A. 车道/道路检测

现有研究 [93] [94] [95] 对传统的多模式道路检测方法进行了详细评述。这些方法 [96] [97] [98] [99] 主要依靠视觉进行道路/车道检测，同时利用激光雷达进行路缘拟合和障碍物遮挡。因此，本节重点介绍基于深度学习的道路提取融合策略的最新进展。基于深度学习的道路检测方法可分为基于 BEV 的方法和基于前视角的方法。基于 BEV 的方法 [86] [88] [89] [87] 将 LiDAR 深度和图像投射到 BEV 中进行道路检测，从而保留了物体的原始 x、y 坐标和方向。在 [86] 中，使用 CNN 从点云预测密集 BEV 高度估计值，然后将其与 BEV 图像融合，以实现精确的车道检测。但是，这种方法无法区分不同的车道类型。同样，Lv 等人[88] 也利用了 BEV LiDAR 网格图和 BEV 图像，但采用了并行处理的方式。Yu 等人[89]提出了一种多级融合策略（MSRF），该策略结合了不同网络级别的图像深度特征，从而显著提高了性能。不过，这种策略也相对增加了计算成本。Wulff 等人[87] 使用信号级融合生成融合的 BEV 占用网格，并由基于 U 网的道路分割网络进行处理。然而，由于网格分辨率较低，密集 RGB 和稀疏深度之间的信号级融合会导致密集纹理信息的丢失。

基于前视角的方法[90] [91] [92]将激光雷达深度投影到图像平面以提取路面，这种方法在将二维边界转换为三维边界时存在精度损失。LCNet [90] 比较了道路检测的信号级融合（早期融合）和特征级融合（后期融合和交叉融合），发现交叉融合是性能最好的融合策略。与[88]类似，PLARD[91]也在多个阶段逐步融合图像和点云特征。Lee 等人[92]的研究重点是通过球坐标变换方案降低输入大小，从而提高速度。基于 SegNet 的语义分割网络会进一步处理转换后的相机和激光雷达数据。

B. 交通标志识别

在激光雷达扫描中，交通标志因其逆反射特性而极易分辨，但由于缺乏密集纹理而难以分类。相反，交通标志图像斑块很容易分类。然而，基于视觉的 TSR 系统很难在三维空间中定位这些交通标志。因此，各种研究都建议同时利用摄像头和激光雷达来进行 TSR。现有综述 [93] [100] 全面涵盖了传统交通标志识别方法和部分深度学习方法。

因此，本节将简要介绍传统的交通标志识别方法，并主要关注最新进展。在典型的 TSR 融合管道中 [101] [102] [103] [104] [105]，交通标志首先根据逆反射特性在 LiDAR 扫描中定位。然后将检测到的交通标志的三维位置投影到图像平面，生成交通标志斑块，并将其输入图像分类器进行分类。此 TSR 融合管道如图 7 所示。

对于采用典型 TSR 融合管道的方法，主要区别在于分类器。这些分类器包括基于深度玻尔兹曼机（DBM）的分层分类器[102]、SVM [101] 和 DNN [104]。总而言之，这些方法都采用了结果级融合和分层对象检测模型。它们都假定交通标志在激光雷达扫描中是可见的，但有时由于遮挡，情况并非如此。此外，该管道还受到移动激光雷达探测范围的限制。

为了减轻这些挑战，Deng 等人[106] 结合图像和点云生成了彩色点云，用于交通标志检测和分类。此外，还利用检测到的交通标志的三维几何特性来减少误判。在文献 [107] 中，交通标志的检测基于先验知识，包括道路几何信息和交通标志几何信息。检测到的交通标志斑块通过高斯伯努利 DBM 模型进行分类。在此基础上，Guan 等人[105]使用卷积胶囊网络进一步改进了交通标志识别部分。总之，这些方法利用多模态数据和先验知识改进了交通标志检测阶段。不过，先验知识往往是针对特定地区的，因此很难推广到世界其他地区。

3.6 语义分割

本节回顾了现有的相机-激光雷达融合方法，包括二维语义分割、三维语义分割和实例分割。二维/三维语义分割旨在预测每个像素和每个点的类别标签，而实例分割也关注单个实例。图 8 和图 9 展示了三维语义分割网络和典型模型架构的时间表。

3.6物体跟踪

多物体跟踪（MOT）旨在保持物体的身份并跟踪其跨数据帧（随时间变化）的位置，这对于自动驾驶车辆的决策制定是不可或缺的。为此，本节回顾了基于相机-激光雷达融合的物体跟踪方法。根据物体初始化方法，MOT 算法可分为基于检测的跟踪（DBT）和免检测跟踪（DFT）框架。DBT 或 “基于检测的跟踪”（Tracking-by-Detection）框架利用物体检测器产生的一系列物体假设和更高层次的线索来跟踪物体。在 DBT 中，通过数据（检测序列）关联或多重假设跟踪来跟踪物体。相反，DFT 框架基于有限集统计（FISST）进行状态估计。常见的方法包括多目标多伯努利（MeMBer）滤波器和概率假设密度（PHD）滤波器。表 V 列出了不同模型在 KITTI 多目标跟踪基准（汽车）上的性能[56]。图 10 比较了 DBT 和 DFT 方法。

未完待续。。。

四、LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for Autonomous Driving

4.1摘要

图像实例分割是自动驾驶领域的基础研究课题，对场景理解和道路安全至关重要。高级的基于学习的方法通常依赖于昂贵的2D蒙版注释进行训练。在本文中，我们提出了一个更巧妙的框架，激光雷达引导的弱监督实例分割(LWSIS)，它利用现成的3D数据，即点云，以及3D盒子，作为训练2D图像实例分割模型的自然弱监督。我们的LWSIS不仅在训练过程中利用了多模态数据中的互补信息，而且显著降低了密集二维掩模的标注成本。LWSIS包括两个关键模块:点标签分配(PLA)和基于图的一致性正则化(GCR)。前一个模块旨在自动将3D点云分配为2D点标记，而后一个模块通过强制多模态数据的几何形状和外观一致性进一步改进预测。此外，我们对nuScenes进行了二次实例分割注释，命名为nuInsSeg，以鼓励对多模态感知任务的进一步研究。在nuInsSeg和大规模Waymo上的大量实验表明，LWSIS可以通过在训练过程中只涉及3D数据来大幅改进现有的弱监督分割模型。此外，LWSIS还可以整合到3D对象检测器中，如PointPainting，以免费提高3D检测性能。代码和数据集可从https://github.com/Serenos/LWSIS获得。

4.2引言

实例分割旨在通过预测像素级类别和实例身份来识别图像中不同的对象实例，这有利于机器人和自动驾驶等广泛的应用。流行的图像分割模型(He et al . 2017;田、沈、陈2020;Chen et al . 2017)通常通过像素级掩模标签进行训练。然而，获得这种细粒度的注释可能非常昂贵和耗时，尤其是对于自动驾驶汽车来说，通常需要数百万个训练样本。相比之下，弱监督实例分割(Tian et al 2021;Lan等2021;Cheng, Parkhi, and Kirillov 2022;Lee et al . 2021;Wang等人(2021)倾向于利用更便宜、更容易获得的注释，这引起了越来越多的关注。

通过利用盒级（Song等人，2019；Tian等人，2021）和点级（Bearman等人，2016；Cheng，Parkhi和Kirillov，2022）注释，在弱监督实例分割方面做出了几项努力。然而，所有这些工作都集中在单一模式的弱监管上。事实上，先进的自动驾驶汽车通常配备激光雷达和摄像头传感器，以准确捕捉3D和2D场景。因此，一种明智的方法是继承大多数自动驾驶数据集上可用的现成激光雷达数据和方框注释的成果（Geiger、Lenz和Urtasun 2012；Caesar等人2020）；以及对多模态弱监督的探索。这可以在很大程度上节省注释成本，消除了额外的2D掩码级注释的需求。此外，通过挖掘三维点云中的几何信息，可以进一步提高图像分割的效果。我们的基本思想如图1所示。

学习多模态模型的主要挑战是点云相对稀疏和嘈杂，激光雷达和相机传感器之间的不准确校准将破坏模型性能。为了解决这个问题，我们提出了一种新方法，巧妙地挖掘激光雷达点云中的线索，以指导图像中弱监督实例分割（LWSIS）的学习。我们的LWSIS依赖于两个关键组件：逐点标签分配（PLA）模块和基于图的一致性正则化（GCR）模块，其中前者用于将LiDAR点云分配为图像的逐点伪注释，后者旨在进一步惩罚不正确的分割预测。更具体地说，PLA包含将LiDAR点云转换为逐点伪标签的四个必要步骤，即点云投影、深度引导点细化、标签分配和标签传播。为了减轻PLA的确认偏差，我们的GCR进一步对基于点云相似性建立的无向图进行一致性正则化。我们的核心思想是，具有相似几何和外观特征的3D点应该具有相同的标签。因此，实例分割模型可以通过PLA生成的逐点伪标签和GCR给出的基于图的正则化项进行联合优化。

此外，我们的LWSIS也是一个即插即用模块，可以很容易地整合到现有的弱监督实例分割模型中（Tian等人2021；Cheng、Parkhi和Kirillov 2022），作为辅助训练任务，以提高模型的能力，在推理过程中不需要额外的网络参数和计算。由于注释负担沉重，很少有自动驾驶数据集提供与3D注释同步的精确像素级实例分割标签，因此我们进一步为基于nuScenes的图像实例分割提供了二次注释（Caesar等人，2020），并将其命名为nuInsSeg。我们采用了一种高效的半自动标记方法，并辅以人工细化，以保持高质量的分割。nuInsSeg使用947K对象实例的大量2D分割标签扩展了nuScenes数据集。这也确保了使用现有的2D实例分割模型对我们的方法进行准确和公平的评估。

总之，我们提出了一种新的学习范式LWSIS，它继承了现成的3D点云的成果，以指导2D实例分割模型的训练。这消除了对遮罩级图像注释的依赖。据我们所知，这是第一项探索多模态弱监督实例分割的工作。为了实现这一点，提出了点标签分配（PLA）模块和基于图的一致性正则化（GCR）模块。此外，我们提倡基于nuScenes的新数据集nuInsSeg，用2D图像分割注释扩展现有的3D LiDAR注释。我们的LWSIS的广泛有效性在nuInsSeg和Waymo数据集上得到了证明。

4.3相关工作

弱监督实例分割旨在提取具有简单廉价注释的对象，如图像级标签（Ahn、Cho和Kwak 2019；Cholakkal等人2019；Ge等人2019）、点（Cheng、Parkhi和Kirillov 2022；Lee、Kim和Sull 2021）、涂鸦（Tang等人2018）和边界框（Tian等人2021；Arun、Jawahar和Kumar 2020；Khoreva等人2017；Hsu等人2019；Lee等人2021），而不是昂贵的像素级注释。

对于使用点注释的方法，PointSup（Cheng、Parkhi和Kirillov 2022）建议使用边界框和随机采样点作为分割注释。它在大规模COCO数据集上实现了接近95%的完全监督方法的性能。对于由边界框注释监督的方法，BBTP（Hsu等人，2019）提出了第一个具有框监督的端到端可训练方法。他们提出了多实例学习（MIL）公式，以利用边界框的紧密性特性，该特性假设框内的交叉线将覆盖对象的至少一个像素。然而，正则化过于松散，无法获得准确的分割结果。BBAM（Lee等人，2021）使用了来自训练对象检测器的属性图，该图突出了对象区域。BoxInst（Tian等人，2021）是一种最先进的盒子监督实例分割方法，不使用任何额外信息或引入多任务训练。它通过投影损失和成对相似性损失来监督CondInst的掩模分支（田、沈和陈，2020）。然而，成对相似性损失是基于具有相似颜色的像素应具有相同标签的假设，这在分割具有空心区域的对象时可能会失败。此外，它仅对像素与其8个邻居之间的关系进行建模，缺乏全局一致性。此外，一些方法引入了辅助任务（Wang等人2021；Lan等人2021）以提高性能。BoxCaseg（Xu等人，2021）将显著图像和框注释作为监督，以感知准确的边界信息。DiscoBox（Lan等人，2021）是一种通过弱监督联合训练同时解决实例分割和语义对应的多任务方法。

4.4LWSIS方法

探索多模态弱监督分割模型有几个优点。首先，LiDAR点云已经感知到感兴趣对象的几何形状，这些点的投影可以作为训练图像分割模型的自然监督信号。这也消除了对额外2D遮罩注释的需要。其次，二维图像分割模型可以利用点云提供的三维几何特征，进一步提高分割性能。第三，得到的弱监督分割模型反过来可以促进基于激光雷达的物体检测等3D感知任务（Yin，Zhou和Krahenbuhl 2021；Shi等人2020；Yin等人20212022a，b；Meng等人2020; Wang等人2023）通过多模态融合。至于3D注释，我们只考虑大多数数据集中已经可用的注释，如KITTI、nuScenes和Waymo，而不是专门为这个2D分割任务注释3D数据。从3D的角度来看，由此产生的2D分割模型可以被视为免费礼物。所有这些优点都促使我们设计LWSIS。

我们的LWSIS概述如图2所示，它由图像实例分割分支（顶部）和点云弱监控分支（底部）组成。由于我们的方法可以很容易地集成到现成的弱监督模型中，我们选择BoxInst（Tian等人，2021）和PointSup（Cheng、Parkhi和Kirillov 2022）作为顶部分支中的示例，这可以产生初始实例分割预测。然后，在底部分支中，我们将LiDAR点云转换为弱监控，以优化图像实例分割预测。为此，我们设计了逐点标签分配模块（PLA）和基于图的一致性正则化（GCR）模块。PLA模块以LiDAR点云和3D边界框为输入，输出图像的点伪标签。GCR模块通过图形利用相邻点之间的相似性，并在一致性损失的情况下对掩码预测进行正则化。接下来，我们将详细介绍这些模块的设计配方。

4.4.1逐点标签分配模块

为了充分利用激光雷达点云，我们设计了PLA模块，自动为每个点分配伪注释，以训练图像分割模型。为了实现这一点，第一步是将点云投影到图像平面。然而，我们发现激光雷达传感器和相机传感器的视差会导致投影过程中的错位。因此，引入了一个深度引导的细化模块来过滤这些噪声点。然后，我们使用启发式规则为每个精炼点分配一个表示前景或背景的二进制标签。最后，我们进一步将这些逐点标签传播到具有相似特征的相邻像素，以提供密集的监督。PLA的概述如图3所示。

4.4.2点云投影

三维空间中具有N个点的点云，N*4的P3d矩阵是点云在齐次坐标系中的表示，4*4的变换矩阵T用于将点云从Lidar坐标系投影到相机坐标系，最后引入3*4的相机矩阵进行从相机到图像平面的变换，得到N*3的P2d齐次坐标系下的投影点云表示。最后，从点云到图像的转移距离可以公式化为：

4.4.3深度引导的点细化

在先进自动驾驶汽车的实际应用中，激光雷达传感器通常安装在比摄像头更高的位置，这将导致两个传感器的视差。如图3（b）所示，一些投影点（例如橙色点）实际上来自汽车后面的物体，但在图像空间中仍然可以在汽车上看到。这将在标签分配过程中产生嘈杂的监督信号。为了解决这个问题，我们设计了深度引导点细化方法，根据对象的深度变化应该平滑而没有梯度悬崖的假设来去除这些噪声点，即如果其相邻点都具有较小的深度，则具有较大深度的点将被视为噪声点。

具体来说，给定图像空间上的投影2D点P2d，我们首先记录每个投影像素的深度值，得到稀疏深度图D∈ R H×W，其中H和W是图像的大小。没有投影点的像素位置将设置为0。然后，利用具有一定步长的2D滑动窗口来处理深度图，并去除每个窗口中的噪声点。具体来说，每个窗口内的点被分为两组Pnear；Pfar，根据相对深度：

其中p（x；y）表示落在局部窗口W内的像素位置（x；y）处的投影点，τdepth是将去除具有相对较大深度的点的预定义深度阈值。d（x；y）表示像素位置（x；y）处的深度值，dmin；dmax是窗口W内的最小和最大深度值。同样，如果相对深度超过τ深度，我们可以得到Pfar。然而，并非所有远处的点都是必要的噪声点。因此，我们进一步计算了由Pnear形成的最小包围盒。直觉是一个有效点应该与其相邻点具有相似的深度。这可以表示为：

其中xmin；xmax；ymin；ymax是Pnear中x和y轴点的最大值和最小值。最后，细化后的二维点可以表示为：

4.4.4标签分配

在这里，我们介绍如何生成正和负的逐点标签。特别地，根据点云和3D检测边界框之间的位置关系，Prefine进一步分为两组Pin和Pout。由于Pin包含3D框内的点，因此自然的想法是将Pin定义为表示前景对象的正样本。关于Pout，由于其点数非常大，我们只保留Pout的一个子集作为负样本，例如，我们保留Pin周围的点作为硬样本。这也基本上确保了阳性和阴性样本的平衡。更具体地说，我们首先将3D框的8个顶点投影到图像坐标上，然后计算最小封闭矩形b ∈R 4×2，这可以被视为一个松弛的2D边界框。然后，我们只保留Pout中b内的点，并将结果点集表示为P 0 out。然后，逐点伪标签由下式给出：

其中二进制标签l（pi）确定点pi是正样本还是负样本。为了进一步促进训练过程中的批量学习，将分别从Pin和P 0 out中以一定的正负采样率采样固定数量的s点。如果s<jPin[P0-outj，我们将通过高斯分布随机采样其他点云来填充它。这样，我们就得到s个点作为伪分割标签。

4.4.5标签传播

由于点云的性质，采样点不可避免地是稀疏的，我们进一步将这些伪标签传播到具有相似特征的相邻像素，以提供密集的监督：

其中l（pi）是pi ∈Npc的指定伪标签，候选点pc的相邻像素f（p）∈ R C表示从骨干提取的位置p处的图像特征。τd是相似度阈值，即只有当图像特征相似度超过τd时，我们才会将pc的标签传播给它的邻居。这导致了一组扩大的数字S的伪点标签

4.4.6逐点激光雷达损耗

实例分割模型在规则网格上输出掩码级别预测，可以表示为M∈R h×w，其中h，w是预测分辨率。在我们的框架中，我们的目标是优化S像素位置{p1，……，ps}，上的掩模预测；其是通过将S个伪点标签下采样到预测分辨率而获得的。通过双线性插值近似每个采样位置ps上的预测m~（ps）2M。最后，每个实例的逐点二进制交叉熵损失公式为：

其中ls是ps处分配的伪标签。与BoxInst和PointSup等其他弱监督解决方案相比，我们的PLA模块受益于点云的几何信息，例如，点自然分布在对象实例的表面上。当监督信号施加在这些点上时，它们的感受野更有可能覆盖整个对象，从而获得更好的分割结果。

4.5基于图的一致性正则化

虽然PLA可以产生精确的伪标签，但由于两个原因，错误的标签可能仍然存在。1）校准噪声引起的系统错误。例如，我们观察到目标边缘上的3D点可以投影到图像平面中的背景区域。2）在反射率低的目标表面上，如汽车挡风玻璃，激光更有可能穿透表面并击中背景区域。因此，PLA模块将为这些区域分配不准确的伪标签。为了减少这些不正确的伪标签的影响，我们设计了GCR来进一步规范实例分割的预测。

4.5.1图形构造

给定PLA模块生成的点集Prefine，我们首先构造一个图G=<V；E>，其中顶点集V为Pref line，边E由图像和几何相似性之和加权，如下所示：

其中w1和w2是加权系数。Simg（i，j）和Sgeo（i，j）分别是pi和pj在二维图像语义空间和三维几何空间中的相似性。对于图像特征，我们采用从ImageNet上预训练的CNN骨干中提取的特征图F∈ R H×W×C（Deng等人，2009）。然后，通过对F进行双线性插值来获得逐点特征，可以表示为F（p）∈R C。然后，pi和pj之间的逐点图像特征相似性可以按如下方式测量：

因为我们有3D点和投影像素之间的对应关系。因此，给定二维点集Prefine⊂R 2，我们可以得到它们的三维点坐标P3d⊋R 3。然后，我们使用归一化欧几里德距离来计算点之间的相似度：

其中m是归一化常数，||·||是l2范数。然后，我们使用加权和来计算最终的相似性，如方程8所示。外观特征容易受到遮挡和光线变化的影响，而几何特征可能会因长距离和校准噪声而失败。利用多模态数据中的互补视角有效地增强了模型，并给出了更稳健的预测。

4.5.2一致性规范化

先前在半监督学习中的研究表明，同一结构上的点（例如，通常称为簇或流形）更有可能具有相同的标签（Zhou等人，2003）。为此，我们将方程8测量的具有高相似性的点正则化，以共享相同的标签。具体来说，我们首先定义一个阈值τ，其中相似度高于τ的边将被设置为1，否则为0：

其中eij ∈E，这样，图G的边表示两个节点之间的标签一致性。然后，我们试图根据图G强制网络产生一致的预测。设m~（p）∈（0，1）表示位置p处的预测值，基于图的正则化意味着如果边eij为1，m~（pi）和m~（pj）之间的预测应尽可能接近。然后，一致性损失可以被实例化为交叉熵损失：

其中N=|V|，P（·）是概率。P（~m（pi）=~m（pj））由m~（pi）·m~。我们发现一致性损失可以强制语义相似的点具有相同的预测，从而导致更平滑的分割结果。然后将最终损耗表示为两个损耗的组合，即L=Lp+Lg，其中Lg是一致性正则化损耗，Lp表示PLA模块中的逐点LiDAR损耗。

4.6实验

实验结果

使用nuInsSeg数据集

1、基于PointSup的弱监督模型甚至比完全监督方法CondInst高出0.6%的AP（45.46 vs 44.88 mAP）。我们还实现了约96%的高级全监督方法MaskRCNN（45.46 vs 47.55 mAP）。

2、方法将使注释成本降低60%，以实现相同的mAP（例如，Mask R-CNN需要2.5倍于我们模型的注释成本才能实现45.4 mAP）。改进下游任务表明，仅使用LiDAR点云和3D框注释，我们的方法可以进一步提高3D物体探测器的性能。

3、消融实验：PLA模块产生的监督信息对大规模对象特别有效。GCR模块的两个组件更适合中小型对象，这证明了当点云对远处对象稀疏时，GCR模块可以通过一致性正则化提供更准确的监督。当PLA和GCR一起应用时，这表明它们可以提供互补的监督信息

在nuInsSeg val1数据集上与现有方法的比较。完全Sup是指采用全掩模监督的方法，弱Sup是指采用弱监督的方法。PointSup (Cheng, Parkhi, and Kirillov 2022)对每个实例使用10个带注释的点和边界框作为监督，而BoxInst (Tian et al . 2021)只使用边界框。

与其他自动驾驶数据集的对比。实例的数量是根据3D盒子的数量计算的。“-”表示没有提及或少量注释。' * '表示这些实例掩码没有手动注释。”Coh.'表示每个实例的3D注释是否与2D注释一致。

LWSIS在Waymo val数据集上的性能

五、MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection

5.1摘要

融合激光雷达和摄像头信息对于在自动驾驶系统中实现准确可靠的3D物体检测至关重要。由于难以将来自两种截然不同的模态的多粒度几何和语义特征结合起来，这是一个挑战。最近的方法旨在通过将2D相机图像中的提升点（称为“种子”）提升到3D空间来探索相机特征的语义密度，然后通过跨模态交互或融合技术将2D语义结合起来。然而，在将点提升到3D空间时，这些方法对深度信息的研究不足，因此2D语义不能与3D点可靠地融合。此外，它们的多模态融合策略（以级联或注意力实现）要么不能有效地融合2D和3D信息，要么无法在体素空间中进行细粒度交互。为此，我们提出了一种新的框架，该框架更好地利用了激光雷达和相机之间的深度信息和细粒度的交叉模态交互，由两个重要组件组成。首先，使用具有深度感知设计的多深度非投影（MDU）方法来提高每个交互级别上提升点的深度质量。其次，应用门控模态感知卷积（GMA卷积）块以细粒度的方式调制与相机模态相关的体素，然后将多模态特征聚合到一个统一的空间中。它们共同为探测头提供了来自激光雷达和相机的更全面的功能。在nuScenes测试基准上，我们提出的方法缩写为MSMDFusion，在不使用测试时间增强和集成技术的情况下，以71.5%的mAP和74.0%的NDS实现了最先进的3D目标检测结果，并以74.0%的AMOTA实现了强大的跟踪结果。该代码可在以下网址获得https://github.com/SxJyJay/MSMDFusion

5.2引言

检测3D物体[1,25,32]被认为是自动驾驶的一项基本任务。针对强大的环境感知，LiDAR和摄像头被广泛安装在自动驾驶汽车上，因为它们可以提供补充信息。LiDAR以点云为特征，可以捕获准确的空间信息，而相机则包含丰富的语义和图像上下文。因此，开发具有两个世界优势的多模态探测器是有前景的。这样的想法催化了一系列最新研究的出现[1,3,12,13,16,18,22,23,28,29]。早期作品[1，3，11，12，20，22，23，29]通过将3D LiDAR点（或从中生成的区域建议）投影到2D图像平面上以收集有用的2D语义来执行LiDAR相机融合。然而，这种范例受到多模态传感器的信号密度失配的影响，由于LiDAR点比相机像素稀疏得多，这种投影方式将不可避免地浪费语义丰富的2D特征。

最近，出现了另一种用于激光雷达相机融合的范例，这些方法不是通过3D查询来收集2D语义特征，而是首先估计像素的深度，然后使用它们对3D世界的语义（在本文中，将这些像素和相应的提升点称为“种子”和“虚拟点”）与真实的3D点云融合。两种与BEVFusion同名的方法将每个图像特征像素视为seed，并在BEV空间中生成虚拟点。MVP和VFF从前景区域采样像素并将其提升到体素空间，得益于密集的虚拟点，这种范式不仅保持了图像中的语义一致性，而且补充了稀疏LiDAR点云的几何线索。

尽管已经取得了重大改进，但这方面的现有方法存在两个主要问题，这阻碍了从虚拟点中获益。首先，深度作为虚拟点质量的关键，在生成虚拟点时研究不足。一方面，深度通过透视投影直接确定seed在3D空间中的空间位置，从而显著影响3D目标检测结果。另一方面，深度还可以通过在描述目标时提供颜色不敏感的线索来增强虚拟点所承载的语义，因为将RGB信息与深度引导相结合，可以关联具有相似深度的相机像素，并使它们能够在被提升为虚拟点时共同有助于捕获与实例相关的语义。现有的多模态检测器主要关注LiDAR点与相机虚拟点的交互，而忽略了seed深度在生成虚拟点中的重要性。虚拟点和未压缩空间（例如，体素空间）中的3D点之间的细粒度交叉模态交互是至关重要的，但不是微不足道的。由于深度不完善和固有的模态差距，生成的虚拟点在几何和语义上与真实的LiDAR点不一致。因此，为了从语义丰富的虚拟点中获益，有必要在真实LiDAR点的指导下以细粒度和可控的方式从虚拟点中自适应地选择有用信息。然而，这种跨模式交互受到点云数据的大量和非结构化性质带来的密集内存和计算成本的限制。或者，现有的方法将多模态信息与简单的连接或在体素空间中添加operation相结合，或者在压缩的BEV空间中执行交叉关注。

为了释放虚拟点的潜力并解决现有方法的缺点，本文提出了一种多尺度融合框架，称为MSMDFusion，在每个尺度内，有两种关键的新颖设计，即多深度非投影（MDU）和门控模态感知卷积（GMA卷积）。如图1所示，MDU主要用于提高生成的虚拟点的几何精度和语义丰富性。当将2D seed从图像提升到3D空间时，在参考邻域内探索多个深度以生成具有更可靠深度的虚拟点。接下来，将相机特征和深度相结合以产生深度感知特征，作为更强的2D语义来装饰这些虚拟点。GMA Conv将真实的LiDAR点和生成的虚拟点作为输入，并以先选择后聚合的方式执行细粒度交互。首先在参考LiDAR体素的指导下从相机体素特征中自适应地选择有用的信息，然后将其分组稀疏卷积进行聚合，以实现充分的多模态交互。作者还特别采用了体素二次采样策略，以在实施GMA-Conv时有效地获得可靠的激光雷达参考。

最后，利用来自多个尺度的多模态体素特征，进一步将它们与跨尺度的级联连接相关联，以聚合多粒度信息。利用上述设计，封装在虚拟点中的相机语义与LiDAR点一致地结合，从而提供用于增强3D对象检测的更强的多模态特征表示。如表3所示，与两种BEVFusion方法相比，生成的虚拟点减少了100倍，本文的MSMDFusion仍然可以实现最先进的性能！

总之，我们的贡献有三方面：（1）我们提出了一种新的MSMDFusion方法，该方法鼓励在多尺度体素空间中进行充分的LiDAR相机特征融合。（2）在每个尺度内，我们提出了一种多深度非投影策略（MDU），通过充分利用像素的深度来促进具有更好位置和语义的虚拟点生成，以及一种门控模态感知卷积（GMA卷积），以实现细粒度可控的多模态交互。（3）大规模nuScenes数据集上的大量实验结果证明了我们的MSMDFusion及其组件的有效性。我们使用单个模型在具有挑战性的nuScenes检测轨道上实现了最先进的性能，mAP为71.5%，NDS为74.0%1。当结合简单的贪婪跟踪策略[27]时，我们的方法也实现了74.0%AMOTA的强跟踪结果。

5.3方法

5.3.1框架概述

MSMDFusion的整体视图如图2所示。给定LiDAR点云和相应的多视图相机图像作为输入，MSMDFusion首先从体素空间中的两种模态中提取多尺度特征。然后，在多尺度体素空间内执行LiDAR相机交互，以正确组合来自两种模态的多粒度信息。在每个尺度上，我们专门设计了一种多深度非投影（MDU）策略，以在体素空间中获得高质量的虚拟点，并设计了一个门控模态感知卷积块（GMA Conv），用于有效的LiDAR相机交互和融合。我们还引入了跨尺度连接，以逐步组合不同粒度的特征。随后，深度交互的多模态特征与LiDAR特征一起被转换到BEV空间，并被馈送到BEV编码器和检测头进行最终预测。

5.3.2.激光雷达和相机特征提取

首先从激光雷达和相机的原始输入中提取高级特征。对于给定的激光雷达点云，按照先前的技术[1, 13, 16]，使用一组三维稀疏卷积块[4]对点进行体素化，并提取其在体素空间中的特征。每个卷积块提取不同尺度的体素特征，代表点云的不同抽象程度（低抽象程度的点云包含更多细节，例如每个点的具体位置、颜色、法向量等信息；而高抽象程度的表示可能只关注整体形状特征，丢弃部分细节。），这些多尺度特征将通过我们提出的 GMA-Conv 块与它们的二维对应特征进一步交互。对于多视角相机图像，我们采用以FPN为图像主干的ResNet50提取多尺度图像特征，其中包含了丰富的对象语义。然而，将这些有用的语义转移到3D体素场是很重要的，因为图像是固有的2D数据。受最近的工作[13，16，28]的启发，这些工作从图像平面中选择种子并估计它们的深度以将它们提升为3D虚拟点，我们进一步提出了多深度去投影策略来提升2D种子，这可以减轻先前工作的缺点。细节将在下面的小节中介绍。

5.3.3.体素空间中的多模态交互

从前一阶段提取的激光雷达和照相机特征分别集中于几何和语义信息，因此多模态交互的目标是将这些特征适当地融合到场景的统一丰富表示中。如图2所示，体素空间中每个尺度内的LiDAR-相机交互的分量在概念上是简单的:1)引入多深度去投影(MDU)策略以提高所生成的虚拟点的质量，以及2)门控模态感知卷积(GMA-Conv)块被设计用于可控的LiDAR-相机融合。在接下来的部分中，我们将首先在一个特定的尺度下阐述MDU和GMA-Conv，然后在它们之上，我们描述完整的多尺度融合过程。

a. Multi-Depth Unprojection

为了将像素空间中的2D种子提升到3D空间（即，非投影操作），应估计与每个seed相关联的深度，为了获得初始可靠的深度估计，使用MVP的策略作为基础，如图3（a）所示。虽然有效，但这种策略忽略了这样一个事实，即2D图像中的空间接近性在3D中无法保证，这可能会导致不准确的深度估计，如图3（a）的红色圆圈所示。为此，本文建议通过检索K最近参考点为每个seed配备多个深度，这可以被视为实现更可靠的深度估计的软策略。如图3（b）的蓝色圆圈所示，可以使用来自相邻参考点的多个（K）深度来反投影每个seed，这将生成K个虚拟点，以提高其对实际3D点的回忆。

这些生成的虚拟点将被进一步修饰，以充分利用图像中封装的语义。但与MVP [28]简单地用预训练的2D检测器预测的类分数装饰虚拟点不同，我们在图像特征和来自参考点的稀疏深度信息之间进行早期交互，以生成深度感知的语义特征。然后，这些深度感知语义特征被用于以由它们相应的种子深度控制的自适应方式来装饰虚拟点。整个过程可以进行端到端的训练。具体而言，我们将相机图像特征C与包含该图像中参考点R的所有深度的稀疏深度图连接，然后将它们与卷积层融合，以获得深度感知语义特征C d。对于由相同种子生成的K个虚拟点，对应像素的语义特征也应该沿着3D空间中的投影射线有不同的贡献[17]。因此，我们为每个单独的深度计算动态权重因子，以调整语义特征。，特定种子(u^s_i，v^s_ i) 可以正式描述为：

d是是种子的第k个估计深度，s k 表示其权重因子，c k是调制后的语义特征，将用于修饰对应的未投影虚拟点

生成的具有装饰特征的虚拟点将被体素化，以匹配LiDAR分支的相应比例的输出分辨率，以便在体素空间中执行交互！

b.门控模态感知卷积

利用共享相同空间分辨率的最终激光雷达和相机体素特征(即，图2中垂直对齐的蓝色和黄色体素)，我们的目标是以细粒度和可控的方式与我们在每个尺度中提出的门控模态感知卷积(GMA-Conv)块进行交互。如图4所示，

我们首先根据其形态对体素进行分组:仅激光雷达(蓝色体素)、仅相机(黄色体素)，以及激光雷达和相机组合(红色体素)，它们分别表示为f^L、f^C和f^{LC}。然后，以选择然后聚集的方式进行更细粒度的多模态交互。

选择

基于激光雷达的探测器通常以较大的优势超过基于相机的检测器，这一事实促使将激光雷达作为从相机特征中选择有用信息的指导模式。本文设计了一个基于LiDAR功能的门，以控制和更新其相机对应目标，这可以正式描述为：

其中~ f C i是更新的相机体素特征，I和j是配对的相机和激光雷达体素特征的体素索引(f L j可以被视为f C i的参考体素)。使该选择过程有效的关键是如何有效地找到可靠的参考体素。一种直接的方法是从f L中检索每个仅相机体素f C i的最近的激光雷达体素。类似地，对于激光雷达相机体素f LC k，可以从激光雷达和相机模态(即f 1和f C)中检索参考。尽管来自更可靠模态的附近邻居可以作为很好的参考，但是这样的检索过程用穷举的成对距离计算来实现是不可行的，因为大量的激光雷达和相机体素带来的计算和存储成本是棘手的，我们将在本小节的结尾给出更多的分析和我们的解决方案。

聚合

对于原始的仅LiDAR体素f^L，以及更新的仅相机和LiDAR相机组合体素~f^C和~f^{LC}，我们首先将它们的模态特定表示转换成具有3D稀疏卷积的中间关节空间。然后，在联合空间内，我们进一步组合所有体素，并通过另一个3D稀疏卷积来促进它们的交互，如图4所示，生成的多模态体素特征表示为F^M。

高效实施

我们首先讨论两个常用于跨模态交互的操作符，以展示它们的复杂性瓶颈。然后，我们展示了我们对上述检索过程的实现。假设激光雷达和相机体素的数量分别为N和M，其中对于激光雷达帧，N和M通常为105的比例。因此，任何具有二次计算或空间复杂度的运算(即，O(N2)，O(M2)，或O(MN))都是难以处理的，例如，标准的交叉注意[21]。或者，Swin-Transformer [15]中引入的局部注意力似乎是一个可行的解决方案。然而，与2D数据不同，体素不是以密集张量的形式存储的，在密集张量中，附近的元素可以很容易地通过索引来访问。相反，必须计算成对距离来检索每个体素的局部邻居。这个过程再次导致二次复杂度。图5显示了我们对上述过程的高效实施。

加速是通过利用相机体素由于第3.3.1节所述的密集不投影而通常是冗余的这一事实来实现的，我们首先使用最远点采样(FPS) [19]策略对f C中的L个元素进行子采样。然后，我们通过详尽的成对距离计算来检索这L个相机体素的最近的激光雷达体素。最后，这L个相机体素中的每一个将其最近的LiDAR体素的索引分配给预定义半径的球内的邻居，即，这些相机体素共享公共LiDAR体素作为选择过程中的参考。我们的实现的总计算复杂度是O(LM+LN+LN) = O(L(M + N))，因为L与N和M相比是小常数(我们在实践中将L设置为2048)，并且3D稀疏卷积以与N和M线性的复杂度被有效地实现，因此我们的GMA-Conv的总计算复杂度是O(M + N)。

c.多尺度渐进式交互

在体素空间的不同尺度内执行MDU和GMA Conv之后，为每个尺度生成多模态体素特征{F^M_i}。为了进一步聚合来自｛F^M_i｝的这些多粒度信息，本文引入了跨不同尺度的级联连接，如图2所示，可以公式化为：（通过将前一层的特征降采样并与当前层的特征相加，来结合不同尺度的信息）

其中应用体素下采样操作downsample()来对齐它们的空间分辨率，^F M i+1是组合来自当前和先前尺度的多尺度信息的结果体素特征。利用上述设计，多粒度LiDARcamera特征可以在体素空间中的多个尺度上完全交互。最终输出的多模态体素特征可以作为后续模块的有力表示。

d.BEV空间中的预测

遵循流行的基于体素的3D目标检测器的工作流程，压缩体素特征的高度，将其转换为BEV（鸟瞰图）空间。具体而言，首先将LiDAR和多模态BEV特征与轻量级2D卷积块融合。然后，包含增强的多模态信息的BEV特征被馈送到常规BEV编码器和用于最终预测的检测头。

5.4实验

nuScenes数据集是一个大规模的自动驾驶基准，包括总共10000个驾驶场景，分为700、150和150个场景，用于训练、验证和测试。对于检测，nuScenes定义了一组评估指标，包括nuScenes检测分数（NDS）、平均精度（mAP）以及五个真阳性（TP）度量，即平均平移误差（mATE）、平均尺度误差（mASE）、平均方位误差（mAOE）、平均速度误差（mAVE）和平均属性误差（mAAE）。本文报告了mAP，这是在0.5米、1米、2米和4米的距离阈值下，十个等级的平均精度的平均值，NDS是mAP、mATE、mASE、mAOE、mAVE和mAAE的加权组合！

本文使用ResNet-50、FPN作为图像主干，VoxelNet作为LiDAR主干。将图像大小设置为448×800，体素大小设置为（0.075m、0.075m、0.2m）。为了充分利用多尺度语义，从FPN的四个级别（C2到C5）提取特征。根据MVP在生成虚拟点时使用CenterNet作为2D检测器，除非另有规定，否则在每个实例上选择50个种子。模型训练有两个阶段:(1)我们首先训练20个时期的仅激光雷达探测器作为我们的3D骨干。(2)然后，我们将所提出的激光雷达-相机融合模块与3D主干相连接，用于另外6个时期的联合训练。数据扩充策略和训练计划与之前的工作相同[27，33]。在推断过程中，我们不使用测试时间增强(TTA)或多模型集成。

与最先进方法的比较

论文将MSMDFusion与nuScene测试集上的最先进方法进行了比较，总的来说，表1显示，该方法超过了所有现有方法，并实现了71.5mAP和74.0NDS的最新性能。同时，在大多数目标类别上保持了一致的性能优势，特别是在具有挑战性的类别：自行车，与最强的竞争对手相比，获得了3.5%的绝对AP增益。由于MSMDFusion和两种强大的BEVFusion方法都通过从2D seed生成3D虚拟点来融合LiDAR和相机信号，因此特别将我们的方法与它们在每个LiDAR帧生成的虚拟点数量方面进行了比较，如表3所示。

结果表明，尽管生成的虚拟点比它们少100倍(16k对2M/5M ),但我们的MSMDFusion在mAP和NDS方面仍然优于它们，这证明了我们的方法可以更好地利用2D语义。同时，我们也比较了我们的方法和两种BEVFusion方法的FPS。BEVFusion [16]可以实现最快的推理速度，因为它使用CUDA实现了高效的相机到BEV的转换。

此外，为了证明MSMDFusion也可以推广到其它下游任务，进一步在nuScene上执行跟踪任务。为了公平比较，仅使用[27]中介绍的贪婪跟踪器与单模型方法（即，没有TTA或集成）进行比较。如表2所示，本文的方法在所有评估指标上均优于其他单一模型竞争对手。同时，尽管不使用集成技术，但也获得了与集成BEVFusion方法相比具有竞争力的结果。

2）综合分析
在UVTR之后，本文对nuScenes训练集的随机抽样1/4分割进行了以下消融研究，以提高效率！作者对每个拟定组件进行了全面的消融研究，如表4所示。使用TransFusion-L作为基线（#1），并在所有实验中执行多尺度融合。根据表4的结果，有以下观察结果。

（i）为多模态交互引入虚拟点（#2和#3）带来了比基线明显的改进，这证明了将虚拟点的密集2D语义与体素空间中的LiDAR特征融合可以显著增强仅LiDAR检测器。

（ii）早期深度颜色交互（#2和#3）可以提供更强的语义，这进一步提高了LiDAR和虚拟点之间交互的益处。

（iii）使用GMA Conv从虚拟点（#4和#5）中选择有用的信息可以比无区别地从虚拟点中吸收所有信息（#2和#3）带来进一步的改进。

（iv）结合所有这些成分（#5），最终mAP和NDS分别从60.26%显著提高到66.93%和65.62%显著提高到68.93%，这证明了论文设计的有效性。

作者还研究了在不同尺度上执行激光雷达相机交互的效果，如表5所示，

对于具有单尺度交互（#2-#4）的模型，以更大空间分辨率的尺度进行交互通常会导致比基线（#1）更大的性能增益，这主要得益于更细粒度的图像和LiDAR特征。如果多模式交互以更多的尺度（#6-#8）执行，多粒度信息可以集成到本文的渐进式交互过程中，以始终实现比单尺度模型更好的性能。与最佳单尺度模型相比，完整的多尺度相互作用模型实现了约2%mAP和约1%NDS的性能增益，这表明多尺度相互影响有利于全面的多模态融合。

5.5结论

结论在本文中，我们提出了MSMDFusion，一种新的用于3D对象检测的LiDARcamera融合框架，它在多个尺度上执行多模态交互。我们采用多深度去投影(MDU)策略从图像中获得具有深度感知语义的可靠虚拟点，并在每个尺度上应用门控模态感知卷积(GMA-Conv)来促进细粒度可控多模态激光雷达-相机融合。多粒度信息被进一步跨尺度组合以形成预测头的综合特征。大量的实验证明了这些组件的有效性，我们的方法最终在nuScenes数据集上取得了最先进的性能。

六、带噪声标签的机载LiDAR点云语义分割

6.1摘要

高质量的点云标注是费时费力的，但它是激光雷达点云语义分割成功的关键因素。在激光雷达点云处理过程中，尽管噪声标注具有低标注成本和丰富的跨模态资源（如来自图像的标签），但利用低质量标签的问题却被忽视了。为此，我们首次深入研究了使用噪声标签的机载LiDAR点云语义分割模型的性能，发现其与目标类别和学习阶段密切相关。然后，我们提出了一种新的用于激光雷达点云噪声学习的语义分割框架，称为自适应动态噪声标签校正(ADNLC)，该框架由弱类别优先级、动态监测和历史选择组成。利用这些方法，我们可以根据不同类别的具体学习情况，自适应地校正不同类别的噪声标签。最后，我们提供了从噪声标签中学习机载激光雷达点云的噪声模拟、精度评估和比较的综合过程。我们在ISPRS 3D Labeling Vaihingen和LASDU数据集上进行了实验，结果表明我们的ADNLC分别比基线方法高出30%和16%，验证了ADNLC的优越性，并展示了噪声标签在LiDAR数据处理中的潜力。

6.2引言

LARGE-SCALE航空激光雷达点云是城市建模[1]、虚拟现实[2]、森林测绘[3]和太阳能估算[4]等应用不可或缺的一部分[5]。点云语义分割为每个单独的点分配类别标签，是分析和利用机载激光雷达点云的基本过程。最近关于机载激光雷达点云语义分割的研究在一些数据集上取得了可喜的成果[6]。然而，大多数方法都需要密集而精确的点式注释 [2]、[7]，收集这些注释需要耗费大量资源，这给构建大规模数据集带来了挑战。近年来，人们对只使用稀疏注释的训练模型越来越感兴趣 [8], [9]。例如，研究人员热衷于只使用 1%[10]甚至 0.1%[11] 的标注数据来训练语义分割模型。此外，其他稀疏标注策略也被广泛探索，如子场景级标注[12]和场景级标注[13]、[14]、一物一标[15]、边界框标注[16]和画笔标注[17]等。尽管这些方法减少了标注工作，但精确和完美的标注要求迫使专业人员利用软件对每个场景或点云进行细致的标注。这不仅技术要求高，而且耗费大量时间和精力，导致标注的数据集规模有限。

相反，低精度标注可以通过多种方式获得，例如人工标注中的错误标签（如 ScanNetV2 [18]）、人群来源标注[19]（如 OpenStreetMap [20]）以及来自预训练模型[21]（如基础模型 [22]）的标签。其他来源包括从图像[23]和历史地图[24]中转移的标签。因此，降低标注质量可以显著降低成本，大大减少对标注技术的要求，还能释放多模态数据的潜力。值得注意的是，许多人工标注的数据集确实存在标注错误[18]。然而，有关激光雷达点云噪声学习的研究非常有限，以下问题的答案仍不明确：

低质量注释对航空激光雷达点云语义分割有多大影响？
对于有噪声注释的航空激光雷达点云，训练一个与现有模型类似的模型是否可行？

为此，我们对从有噪声标签的机载激光雷达点云中学习进行了全面研究。我们评估了点云学习框架在不同噪声水平下的性能。结果发现，网络可同时学习所有类别的干净标签和噪声标签。虽然不同类别的无噪声标签的学习性能各不相同，但总体上呈现出一种模式：网络学习无噪声标签的效率随着时间的推移而降低，而学习噪声标签的效率则呈上升趋势。在此基础上，我们设计了一种稳健的点云学习框架，能够显著减轻噪声标签的影响。总之，我们的贡献如下：

我们对噪声标签如何影响激光雷达点云的语义分割进行了深入分析。我们发现，网络会同时学习正确和错误的标签，但随着训练的进行，错误标签对模型的影响会逐渐超过正确标签。
我们提出了一个新颖的语义分割框架，用于处理有噪声标签的激光雷达点云。该框架采用了弱类别优先、动态监测和历史选择等新方法，在很大程度上优于基线方法。
作为首个针对机载激光雷达点云进行鲁棒学习的研究成果，我们建立了一个新的基准，包括噪声模拟、方法比较和精度评估。

本文的其余部分安排如下：第二节概述了之前在机载激光雷达点云语义分割、弱监督学习和噪声学习方面的研究。第三节介绍我们提出的框架。第四节介绍对比实验和消融研究。第五节是工作总结，并讨论了未来研究的潜在方向。

6.3方法

在本部分中，我们首先在第 III-A 节中定量分析了对称噪声对网络学习的影响。随后，在第 III-B 节中，我们深入研究了非对称噪声对网络的影响，并对其进行了监测本文已被接受在《IEEE 地球科学与遥感论文集》上发表。本文为作者版本，未经完全编辑，内容在最终发表前可能会有变动。引用信息： DOI 10.1109/TGRS.2024.3458013 通过指标 IoUgt 和 IoUnl 来了解地面实况标签和噪声标签的学习状况。第 III-C 和 III-D 节全面介绍了我们提出的模块：弱类优先 (WCP)、动态监测 (DM) 和历史选择 (HC)。最后，我们将在第 III-E 节概述我们的综合框架。

A. 前言

噪声学习研究依赖于适合定量评估的噪声标注数据集。目前有三种数据可用于噪声学习研究： 1). 人工标注真实噪声的数据集 [20], [56]; 2).根据特定规则在干净注释的基础上模拟噪声标签[18]，[57]； 3). 通过预训练模型模拟噪声注释[21]，[58]-[60]；

首先，包含真实噪声的注释数据集可能由某些噪声标签组成。然而，由于缺乏地面实况，无法对噪声进行定量分析。因此，许多研究[21]、[57]都采用第二种方法进行噪声模拟。同样，对于机载激光雷达点云，我们可以通过最远点采样（FPS）算法为每个类别选择相同数量的点，然后按预定百分比翻转点的标签，从而模拟不同的噪声率。具体来说，让噪声率 P∈[0, 1]。我们对 FPS 算法处理过的点云进行对称噪声操作，并以相同的概率 P/(C - 1) 将一个类别翻转到其他类别，以确保一个类别均匀分布到其他类别中。图 1a 显示的是 LASDU 数据集上噪声率为 50% 的对称噪声矩阵[61]。图 1b 显示了在 LASDU 数据集上使用 0% 到 50% 不等的噪声率时的性能。结果表明，在 LASDU 数据集上，噪声率与性能指标之间呈负相关。具体地说，当噪声率为 50%时，总体准确率（OA）和平均联合交叉率（mIoU）分别降低了约 12 个百分点和 10 个百分点。实验结果表明，一定程度的噪声标签会严重影响网络的学习。第二种模拟方法具有定量噪声比控制的优点。然而，它的假设过于理想化，假定噪声分布对称，不同类别的样本数一致，这与实际噪声条件有明显偏差[18], [57]。因此，我们选择第三种方法来研究机载激光雷达点云噪声学习。首先，在一个干净的数据集上对模型进行弱监督训练，然后在数据集上进行评估，以获得反映真实世界非对称噪声条件的精度评估数据集[21]。进一步的实验和分析主要针对使用第三种方法生成的非对称噪声数据集。

B. 非对称噪声学习

我们使用第三种方法在 LASDU 数据集[61] 和 ISPRS 数据集[62] 的训练集上生成非对称噪声数据集，并以 LASDU 数据集为例。原始数据集称为精确标注数据集，生成的非对称数据集称为噪声数据集。准确标注数据集中的标签称为 “原始干净标签”，噪声数据集中的标签称为 “原始损坏标签”，如图 2a 和图 2b 所示。为了研究噪声标签对神经网络学习的影响，我们采用了 Liu 等人[21]的量化方法。我们利用 LASDU 训练集中的原始干净标签和原始损坏标签，并使用以下两个指标监测网络对噪声标签的响应：

地面实况标签学习 IoUgt：我们使用输出结果与相应地面实况标签之间的重叠度（以 “交集大于联合”（IoU）度量）来量化地面实况标签学习，如图 2c 所示，用 IoUgt 表示。

噪声标签学习 IoUnl：我们使用输出与相应噪声标签之间的重叠度（以联合交集（IoU）度量）来量化噪声标签学习，如图 2c 所示，用 IoUnl 表示。

我们在经过处理的 LASDU 噪声数据集上进行了训练，并在图 3 中显示了网络预测结果相对于原始损坏标签的 IoUgt、IoUnl 和 IoU，涉及地面、建筑物、树木和低植被类别。

图中，蓝线表示 IoUgt，橙黄色表示 IoUnl，红线表示 IoU。从曲线可以看出，不同类别的 IoUgt 呈下降趋势，这表明模型对地面实况标签的记忆能力有所下降。同时，IoUnl 呈上升趋势，表明模型对错误标签的记忆在增加。此外，需要注意的是，与地面实况标签相关的学习效率因类别而异，每个类别的 IoUgt 峰值不同就证明了这一点。在某些类别中，例如低植被，IoUgt 值明显偏低，表明对地面实况标签的学习效果甚微。相反，IoUgt 峰值较高的类别，如地面，则表明地面实况标签的学习能力较强。我们将 IoUgt 值较低和较高的类别分别称为 “弱 ”和 “强 ”类别。

我们在这两个数据集上进行了对称噪声模拟，在每个数据集上都观察到了一致的现象。实验现象表明，在整个学习过程中，网络几乎同时学习了地面实况和噪声标签。不过，不同类别学习地面实况标签的熟练程度各不相同。总体而言，在所有类别中都出现了一致的模式：网络学习地面实况标签的能力下降，而学习噪声标签的能力上升。

C. 序列自适应校正

基于第三节 B 中的实验现象，我们考虑使用模型的预测来校正噪声标签。这种方法在图像分类领域取得了理想的效果[21], [63]-[66]。考虑到过早修正点云噪声标签，网络尚未充分学习地面实况标签，而过晚修正又会导致网络学习到大部分噪声标签。要确定标签校正的最佳时间，需要考虑以下因素：

1.不同类别对地面实况标签的学习效率不同，如 IoUgt 中不同的峰值所示。

2. 在真实数据集上进行训练时，没有诸如噪声率之类的先验知识来观察网络如何学习地面真实标签和噪声标签。因此，我们唯一能利用的就是网络预测与原始损坏标签（如 IoU）之间的相关性。

3. 网络对强类别的学习速度快于弱类别。因此，弱类别需要更长的时间才能达到更高的 IoU。如果强类别的标签比弱类别的标签更早得到修正，必然会导致强类别的结果比弱类别的结果好得多。

为了应对这些挑战，我们引入了弱类别优先（WCP）模块和动态监控（DM）模块。对于每个类别，弱类别优先（WCP）模块首先通过分析网络预测与原始损坏标签之间的 IoU 来区分强类别和弱类别（如图 2b 所示）。对于弱类别，我们使用动态监控（DM）模块来检测网络预测与原始损坏标签之间的 IoU，以确定纠正这些标签的适当时间。随后，我们会优先更新弱类别。在优先更新强类别时，分割网络会学习到更多关于这些类别的特征，因此能更好地识别这些类别。然而，弱类别需要更长的学习时间才能被分割网络识别。优先更新强类别会导致网络更加关注这些类别，这必然会使网络无法为弱类别建立结构良好的特征空间。WCP 模块可确保弱类别在较早阶段学习到更多地面真实标签，从而将强类别中噪声标签修正的潜在影响降至最低。例如，比较由数百万个点组成的房屋和由一万个点组成的电线杆。网络能更有效地学习前者的特征，更早地到达适当的标签修正点。如果我们先对房屋进行标签校正，网络在学习这一类别时就会更有效率。但是，网络在学习万级电线杆的特征时会很吃力。最终，在对弱类别中的标签进行修正后，同时对强类别和弱类别标签进行修正。

弱分类优先（WCP）模块

在实验中，我们发现网络的预测与原始损坏标签之间的IoU曲线(如图2b所示)与IoUgt的峰值有特殊的关联。当IoUgt的峰值较低时，网络预测与原始损坏标签之间的IoU往往学习较慢，峰值较低。基于这些观察结果，我们引入了一个阈值 P（0 < P < 1）。在第 ei 个纪元，估网络预测和原始损坏标签的IoU，以区分强类别(以较高的峰值为特征)和弱类别(以较低的峰值为特征)。公式1为:

其中c表示类别，IoUc表示该类别的网络预测与原始损坏标签的联合交集, Ratec表示该类别的强度属性。设P为0.5,ei为 2。

动态监测（DM）模块

为了检测每个类别的 IoU 曲线的变化，我们使用以下普通最小二乘法（OLS）模型，通过相邻多个历元的 IoU 值来拟合训练集的 IoU 曲线。公式 2 如下：

其中 Q 代表误差，yˆi 代表估计结果，yi 代表地面真实值。在拟合二元线性模型中，当确定斜率 K 低于阈值 Kmax，同时 IoU 超过 IoUmin 时，标签校正就会在特定的时间点开始。

D. 在历史中选择标签

历史选择（HC）模块旨在纠正有噪声的标签。最初，通过应用弱类别优先（WCP）模块和动态监控（DM）模块来确定弱类别内的修正时间。随后，历史选择（HC）模块会从网络预测中选择可靠的标签来修正噪声标签。我们将点云表示为 X ∈ Γ (N×F ) ，其中 N 表示点的数量，F 表示点的特征（如回声的数量），Y 表示语义标签，C 表示类号。模型中第 n 个点在第 i 个时间点的预测标签表示为 hin，n ∈ {1，...，N}。模型存储的历史预测标签为 Hl={h1N , ..., hiN }，其中 l 表示历史长度（例如，通常设置为 4）。对于拥有 l 个历史标签的点 Pn, n∈{1, ..., N}，计算其属于类c,c∈{1, ..., C} 的频率，记为 Pn(c)：

其中方括号[.]代表艾弗森括号。随后，计算点 Pn 的历史预测标签 Hl 中最经常出现的标签 c max n。

对于每个点 Pn，计算标签值 c max n 的出现概率。这个概率用 P max n 表示：

每个点 Pn 的置信度 Yn 是通过应用熵来计算的

将每个点 Pn 的置信度 Yn 与预先定义的阈值 θ（例如，通常设置为 0.001）进行比较。置信度低于 θ 的标签被认为是可靠的，表示为 Y reln，并因此被保留用于后续的网络学习。反之，超过置信度阈值 θ 的标签则被归类为不可靠标签，因此会被忽略（如设为-1）。

最终，我们用可靠标签集 Xreliable = {Y reln, n ∈ (1, ..., N)} 来替换原始的损坏标签，从而使网络能够针对噪声标签进行稳健学习。噪声标签每隔一段时间（epochs）更换一次。当第一次替换噪声标签时，在更干净的数据集上训练网络会增强其识别能力，从而获得更准确的预测。通过反复替换，数据集会变得更干净，网络的识别能力也会得到提高。最终，这两个过程会达到一个稳定的状态，从而有效地最大限度地发挥历史选择模块的作用。在量化网络预测与地面实况标签之间的偏差时，我们使用交叉熵损失函数来计算损失。

其中，Pw 表示小批量样本的数量，yij 和 pij 分别表示点云的标签和预测结果。

E. 整体框架

图 4 显示了整个流程，主要由弱类优先（WCP）模块、动态监控（DM）模块（在第 III-C 节中重点介绍）和历史选择（HC）模块（在第 III-D 节中讨论）组成。我们采用 KPConv [27] 作为主要框架。在训练的早期阶段，我们根据网络预测与原始损失标签之间的关系将类别分为强类别和弱类别。这种方法保证了弱类别优先学习更多的地面真实标签，避免了强类别的噪声标签在弱类别中的修正干扰。随后，利用动态监测（DM）模块来确定修正弱类别标签的最佳时机。此时，模型已经充分学习了地面真实标签，而不会过度拟合噪声标签。最后，我们将应用历史选择模块，从众多网络预测中选择可靠的标签，从而纠正有噪声的标签。我们的方法背后的核心理念是在适当的时机利用网络的预测结果来识别可靠的标签，随后替换噪声标签以实现稳健学习。

6.4实验

A. 数据集

为了验证我们方法的有效性，我们使用两个不同的机载激光雷达点云数据集进行了实验：ISPRS Vaihingen 3D Semantic Labeling benchmark (ISPRS) [62]和用于密集城区语义标注的大规模 ALS 数据 (LASDU)

ISPRS Vaihingen 数据集。该数据集是由 Leica ALS50 系统在德国 Vaihingen 扫描获得的机载 LiDAR 点云。其点密度约为 6.7 点/平方米。数据集中的每个点都包含 XYZ 坐标、强度、回波数和回波总数等信息。数据集分为两个不同的部分：一个是包含 753 859 个点的训练集，另一个是包含 411 721 个点的测试集。数据集共包括九个类别，即电力线、低植被、不透水表面、汽车、栅栏/篱笆、屋顶、外墙、灌木和树木。点云沿 Z 轴的可视化效果如图 5 所示。我们将下采样网格大小设置为 0.4 米，并利用所有特征信息进行网络训练。

机载激光雷达点云数据集由徕卡 ALS70 系统在中国黑河流域采集。该数据集由约 312 万个点组成，平均点密度约为 4 点/平方米。数据集分为四个部分，其中训练集包括两个部分约 59 万个点，测试集包括两个部分约 113 万个点。该数据集中包含五个不同的类别：地面、人工痕迹、低植被、树木和建筑物。点云沿 Z 轴的渲染效果如图 6 所示。

我们将向下采样网格大小设置为 0.6 米，并利用 XYZ 坐标和强度信息进行网络训练。我们按照文献 [21]、[58]-[60] 为 ISPRS 和 LASDU 数据集生成非对称噪声标签。相应的混淆矩阵分别如表 7a 和表 7b 所示

B实施细节

在我们的实验中，所有模型都是在 PyTorch 1.8.2 框架下实现的，并在 NVIDIA GeForce RTX 3090 24GB GPU 上进行训练。我们采用 KPConv 网络作为模型的骨干。对于 ISPRS 数据集，我们将半径设置为 20 米，而对于 LASDU 数据集，我们将半径设置为 40 米。对于 ISPRS 数据集，我们将每个历元的批量大小设为 8，步数设为 120。相反，对于 LASDU 数据集，批量大小调整为 4，每个历元 200 步。

我们规定这两个数据集的最大训练次数为 400 次。在整个训练过程中，我们使用随机梯度下降（SGD）优化器来完善网络参数。初始学习率为 1e-2，动量值为 0.98。所有其他参数均与 KPConv 分割网络的默认设置保持一致。我们将两个数据集划分强类和弱类的阈值 P 设为 0.5。此外，我们使用线性方程来动态识别 “交集大于联合 ”曲线。

C. 评估指标

我们使用总体准确率（OA）和平均交叉联合率（mIoU）来评估我们方法的性能。总体准确率代表测试数据集上正确分类的数据比例。平均联合交集表示测试数据集上每个类别的平均联合交集。表达式如下

其中，TP、TN、FP 和 FN 分别代表混淆矩阵中的真阳性、真阴性、假阳性和假阴性。

D. 实验与分析

为了评估我们方法的有效性，我们在 ISPRS 3D Labeling Vaihingen 和 LASDU 数据集上进行了实验评估，并将我们的结果与各种成熟方法进行了比较。鉴于有关室外点云噪声鲁棒性学习的研究很少，我们将我们的方法与 PNAL [18] 进行了比较，后者研究了点云噪声学习，并在室内场景噪声标签的鲁棒性方面取得了良好的结果。该方法利用每个点的置信度选择来识别每个点的历史可靠标签，并利用聚类信息在最相似的局部区域内执行标签校正。该方法采用 DBSCAN 算法 [67]，使用 XYZ 坐标和 RGB 颜色信息对室内点云进行聚类，取得了一定的成功。在对机载激光雷达点云进行聚类时，由于缺乏颜色信息以及某些区域的密度分布不均匀，可能会限制 DBSCAN 算法的效果。在 DBSCAN 的处理过程中，与 “地面 ”等分布密集的大类相比，该算法更容易忽略低密度区域的 “汽车 ”等小体积物体。为了缓解这一问题，我们采用了超级体素方法来构建聚类信息，这种方法可以识别出具有相似特征的紧凑均匀的局部区域。同时，我们比较了图像分类噪声标签鲁棒性学习方法（GCE），将广义交叉熵损失 [48] 结合到 KPConv 框架中。最后，我们将其与 ADELE 方法 [21] 进行比较，后者代表了图像语义分割领域最先进的方法。在训练过程中，该方法会检测每个类别的噪声记忆起始阶段，并利用强制的跨尺度一致性自适应修正噪声标签。考虑到其主要侧重于图像处理，直接对点云应用相同的上采样和下采样技术可能会降低数据质量，并妨碍网络正确学习各种类别。因此，我们在研究中选择用历史选择（HC）模块取代跨尺度一致性方法。在我们的实验中，只使用训练集中的噪声标签，不使用地面真实标签。测试是在带有未经过任何噪声处理的地面真实标签的测试集上进行的。两个数据集的性能结果如下：

1) ISPRS 数据集上的结果：表 I 显示了在 ISPRS 数据集上完全监督学习、使用噪声标签直接训练、GCE、ADELE、PNAL 和我们的方法之间的比较。与 DTNL （使用噪声标签进行直接训练）相比，GCE 没有任何改进，而且无法识别电力类别。这表明，在激光雷达点云噪声学习中，仅修改损失函数并不是一种有效的方法。ADELE 方法的结果略有提高，约为 2 分，这是因为它只关注早期学习阶段，而没有考虑类别之间的相互影响。从结果可以看出，PNAL 导致性能下降。具体来说，电力线类别无法学习，而立面和灌木类别的 IoU 都明显下降。这是因为与室内点云相比，带有植被和树木等类别的机载激光雷达点云更为复杂，阻碍了精确群集级信息的获取。结果是，在机载激光雷达点云中应用 PNAL 方法的集群级校正是无效的。与使用噪声标签直接训练的基线方法相比，我们的方法在 IoU 方面提高了 12 分。所有类别都有提高，尤其是电力类别，其 IoU 大幅提高了约 38 个点。这一改进归功于我们的弱类优先（WCP）模块的巨大影响。通过降低低植被、不透水表面和电线等易学习类别的影响，我们促进了从地面实况标签中有效学习该类别。在栅栏和灌木类别中观察到的改进并不明显。这是由于完全监督学习的局限性造成的，这两个类别的 IoU 分别只有 17.5% 和 26.1%。这表明网络在识别这些类别时非常吃力。当这些类别中出现噪声时，网络识别这些类别的能力将变得更加困难，这也将导致预测准确率下降。使用这些预测来校正标签对提高网络识别这些类别的能力几乎没有帮助。

图 8 还显示了整体分割结果。结果显示，与基线相比，我们的方法显著减少了建筑物和外墙等类别的噪声标签。为了全面展示我们方法的有效性，我们在图 9 中展示了部分区域的分割结果。前三行依次对应建筑物、电力线和汽车类别。就电力线类别而言，GCE [48] 和 PNAL [18] 都无法准确识别该类别。就 GCE 而言，它无法消除噪声对电力线类别的影响。对于 PNAL 而言，这是因为电力线的聚类信息包含其他类别，导致 PNAL 的聚类校正效率低下。虽然 ADELE 方法[21]学习了电力线类别，但它仍然捕捉到了大量噪声。这是因为 ADELE 没有充分执行标签替换，导致数据集中残留大量噪声。与他们的方法不同，我们的方法考虑了不同类别之间的影响，并选择使用可靠标签多次更新噪声标签。因此，这一策略提高了许多不同类别的性能（如最后一列所示）

2) 在 LASDU 数据集上的结果：表 II 列出了在 LASDU 数据集上完全监督学习、带噪声标签直接训练、GCE、ADELE、PNAL 和我们的方法之间的比较。与 DTNL 相比，GCE 在一些类别（如地面、树和人工制品）中的性能有所下降，这表明仅修改损失函数并不能很好地抑制噪声标签对网络的影响。结果表明，ADELE 方法总体上并没有很大的改进，只是在建筑物和低植被类别中有所改善，而其他类别则有所下降。ADELE 的不足之处在于没有考虑类别之间的相互关系，导致标签修正的进展速度不同，建筑物等类别的进展速度快于人工制品等类别。随着学习的深入，该网络在建筑物类别方面有所改进，但在人工制品类别方面则有所下降。由于机载激光雷达点云的复杂性，PNAL 不能产生良好的结果。这种复杂性阻碍了每个类别的纯聚类的形成，导致了混合类别聚类的存在。因此，PNAL 对机载激光雷达点云的簇级修正是不成功的。与使用有噪声标签的直接训练相比，我们的方法在总体上将 IoU 提高了约 7 个百分点，并将建筑类别明显提高了约 15 个百分点。

图 10 展示了 LASDU 数据集的整体分割结果。很明显，对于地面、建筑物、树木等类别，我们成功地减轻了噪声的影响，取得了相当理想的结果。如图 11 所示，我们将更详细地展示分割结果。前三行按降序分别对应地面、建筑物和树木类别。对于地面和建筑物类别，我们的方法（最后一列）有效地减少了噪音干扰，使网络能够更有效地学习它们的特征。然而，GCE [48]、PNAL [18] 和 ADELE [21] 方法仍然含有大量噪声。在第三行中，GCE [48] 没有消除噪声的影响，导致树仍然含有大量噪声。简单地修改损失函数并不是一种有效的方法。同样在第三行，PNAL[18]显然错误地将建筑物分类为树木类别。这是因为 PNAL 对室外机载激光雷达点云进行了聚类校正，而建筑物、树木和人工制品类别之间在高度和其他属性上的相似性不可避免地会导致错误的类别被聚类在一起。因此，将不同类别的聚类修正为同一类别会导致结果降低。ADELE [21] 将第三行中的建筑类别错误地识别为人工制品类别，是因为它没有考虑建筑类别对人工制品类别的干扰。相反，我们的方法考虑了类别间的干扰，准确地学习了树类别特征，从而清晰地区分了树类别和建筑类别。我们的方法要求一个类别的原始损坏标签包含一定比例的正确标签，这样网络就能从正确标签中学习特征并修正该类别的噪声标签。对于 ISPRS 数据集，所有类别都存在适当比例的正确标签，因此网络可以学习所有类别的特征，并替换所有类别的噪声标签，从而大幅提高 mIoU。对于 LASDU 数据集，某些类别的正确标签比例较低，导致网络无法学习这些类别的特征，因此无法修改这些类别的噪声标签。因此，与 ISPRS 数据集相比，mIoU 的提升幅度较小。

E. 消融研究

在本节中，我们将对每个模块进行消融实验。结果如表 III 所示。这部分实验也是在用第三种噪声模拟方法处理过的 ISPRS 和 LASDU 数据集上进行的。表中数据表明，对于 ISPRS 数据集，与基线模型相比，DM 和 HC 模块的实施使 OA 增加了约 6%，mIoU 增加了约 9%。然而与采用全套模块的结果相比，mIoU 降低了 3%。在 LASDU 数据集方面，应用 DM 和 HC 模块后，与基线模型相比，OA 大约提高了 4%，mIoU 提高了 5%。然而，与应用全部模块得出的结果相比，mIoU 仍然低 2%。对这两个数据集的分析表明，DM 和 HC 模块大大增强了网络对噪声的鲁棒性，并能有效修正错误标签。同样，WCP 和 HC 模块也显示出类似的积极效果。WCP 和 DM 模块在两个数据集中都没有任何改进。这是因为使用 WCP 和 DM 模块时、网络只是确定噪声记忆的起点，但不进行噪声标签校正，结果是没有改进

6.5结论

本文探讨了机载激光雷达点云的噪声学习。我们提出了一种针对机载激光雷达点云的非对称噪声模拟方法，并针对噪声标签对模型性能进行了广泛分析。然后，我们介绍了一个新颖的框架 ADNLC，该框架专门用于在存在噪声标签的情况下促进鲁棒学习。在 ADNLC 中，弱类优先（WCP）模块用于帮助网络感知强类和弱类，而动态监测（DM）模块则用于寻找网络已完全学会地面真实标签的时刻，而不会过度拟合错误标签。历史选择（HC）模块用于从历史预测中选择可靠的标签来替换错误的标签。我们在两个基准 ALS 数据集上进行了全面的实验。与其他方法相比，我们的框架在 OA 和 mIoU 方面有显著改进。最终，我们为机载激光雷达点云的噪声学习建立了一个新的基线。

虽然我们的方法取得了良好的效果，但也存在一些局限性。我们只考虑了点标签的历史一致性，而没有考虑对象的结构信息或拓扑关系，这些我们将在以后进行研究。此外，我们还将进一步探索如何利用遥感图像或众包 OSM [20]中的噪声标签。随着大规模模型和多模态学习的蓬勃发展，跨模态噪声标签将越来越容易获取。这一趋势为点云噪声学习带来了前所未有的机遇和挑战。我们相信，在不久的将来，通过有效利用这些丰富的数据源，点云噪声学习将迎来更大的发展潜力。

七、Deep Continuous Fusion for Multi-Sensor 3D
Object Detection
：https://arxiv.org/abs/2012.10992

参考：Deep Continuous Fusion for Multi-Sensor 3DObject Detection论文笔记_deep continuous fusion for multi-sensor 3d object -CSDN博客

在多传感器的3D物体检测任务中，常见的做法是使用相机视图生成物体提案，并随后利用LIDAR数据进行最终的3D定位。这种级联方法虽然有效，但存在一些局限性，尤其是在未能充分利用多传感器输入的联合推理能力方面。

相关概念解释

体素化（Voxelization）是将三维空间离散化成小立方体（体素）的过程。体素类似于三维图像中的像素，每个体素代表空间中的一个小区域。在体素化过程中，空间中的物体被转化为体素网格，从而使得三维数据能够以网格形式进行处理。体素网格用二进制方式表示物体的存在（体素内部或外部）

F-PointNet 是一种基于摄像机生成二维提案的方法，旨在将二维图像中的目标提案与三维点云数据结合，从而实现目标检测。（常用的二维目标提案方法：滑动窗口、选择性搜索、区域建议网络、YOLO、SSD）

ROI-Pooling（Region of Interest Pooling）是一个用于融合多个视图中传感器特征的方法。它通过从不同视图中提取感兴趣区域（ROI）的特征并进行池化操作，

PointNet 是一种直接从点云数据中预测三维边界框的方法。它不依赖于二维提案，而是直接从点云中预测三维物体的形状和位置。

克服基于区域的粗级池化方案丢失几何信息的问题考虑以下几种方法：ROI Align、全卷积网络（FCN）、高分辨率特征图

锚点的输出：
对每个锚点，网络输出包含以下信息：

每像素类的置信度：表示该位置上目标物体的类别概率，通常用Softmax或Sigmoid函数表示。
相关框的信息：包括物体边界框的中心位置、大小（宽度和高度）以及方向（角度）。这些参数用于定义目标物体在BEV空间中的位置信息。

非最大抑制（NMS）：
在获得了初步的检测结果后，接下来使用非最大抑制（NMS）来过滤冗余的检测框。NMS的目的是保留置信度最高的检测框，移除与之重叠较大的其他检测框。NMS通常是通过设定一个IOU（交并比）阈值来实现的，超过阈值的检测框将被抑制，确保最终的检测结果更准确且不重复。

7.1摘要+引言

如何设计能够更好地利用多种模态的三维探测器仍然是一个有待解决的问题。本文提出了一种基于鸟瞰(BEV)的三维目标检测器，通过学习将图像特征投影到BEV空间进行融合，设计了一种端到端的可学习结构，利用连续卷积对不同分辨率的图像和LIDAR特征图进行融合。提出的连续融合层能够对两种模式下位置间的密集精确几何关系进行编码，从而设计出一种新颖、可靠、高效的基于多传感器的三维目标检测器。

7.2方法

我们利用卷积网络提取图像特征，然后将图像特征投影到BEV中，并与基于LIDAR的检测器的卷积层进行融合。因为图像特征发生在离散的位置，因此，需要“插值”来创建密集的BEV特征图。为了执行该操作，我们利用连续卷积从BEV空间中每个点的最接近的对应图像特征中提取信息。
我们的总体架构包括两个流，一个流提取图像特征，另一个流从LIDAR的Bev提取特征。我们设计了连续融合层来连接两侧的多个中间层，以便在多个尺度上进行多传感器融合。

八、 Multi Sensor Fusion for Navigation and Mapping in Autonomous Vehicles: Accurate Localization in Urban Environments：

https://arxiv.org/abs/2103.13719

论文对 3D-NDT（正态分布变换） 算法进行了改进。NDT 是一种用于 3D 点云匹配的算法，不需要显式地分配特征点之间的关系。通过将点云数据划分为多个网格，并在每个网格中使用高斯分布描述点的分布情况，从而有效地实现对点云的匹配。

论文还提出了结合 差分进化（DE）算法 来优化 NDT 的匹配过程，即 DENDT。此外，作者将 NDT 与 GNSS 和 IMU 数据相结合，提出了 NDT+ 和 NDT++ 方法。这些方法有效地提高了定位的鲁棒性和精度，尤其在 GNSS 提供初始位置信息的情况下，通过卡尔曼滤波器结合 IMU 数据，使得系统在不同场景中的稳定性更强

主要贡献如下:(i)分析和比较了不同的车辆定位估计方法，并定义了一种用于城市环境中精确定位的传感器融合方法;(ii)在数据损坏或环境发生重大变化时，引入重建局部地图区域的策略

基于可用的传感器数据，使用了五种不同的方法来估计车辆的定位。在每种方法中，使用不同的传感器组合，并描述如何根据它们的数据计算机器人位置

1、GNSS-based localization

户外机器人定位最传统的方法之一是使用全球导航卫星系统。在这种情况下，来自多个卫星星座的数据可用并用于提高准确性。GNSS数据误差主要由大气条件和多径干扰引起。使用差分GNSS读数，并假设实时误差等于在与系统同步的近已知位置获得的误差，可以最大限度地减少更大尺度环境和大气条件的影响。然而，在这项工作中，我们没有依赖于差分GNSS

2、GNSS+IMU localization

我们可以很容易地将GNSS数据与惯性数据结合起来，包括加速度计和精度。由于差分GNSS在这种情况下没有实现，相反，标记为“IMU”的结果利用IMU读数进行局部运动估计，而GNSS读数用于初始全局估计和机器人运动长时间几乎为零时的估计

3、Lidar odometry (LOAM)

从数据中提取特征，并在连续帧内进行比较，或者在激光雷达的情况下进行扫描。从激光雷达数据中提取的特征通常基于几何方面。例如，这些包括角落和表面。由于激光雷达能够为远离传感器的物体提供高精度的距离测量，因此在具有明显区分物体的开放空间情况下，基于激光雷达的里程计能够提供比基于视觉的里程计更高的精度。

4、基于NDT的定位(NDT+)

5、NDT+IMU localization (NDT++)

算法流程如下:首先，在系统启动或复位时，利用GNSS数据获得机器人位置的初始估计。这种估计可以用来减少地图的面积，其中将寻找NDT匹配。其次，当机器人开始移动时，使用IMU数据作为输入的无迹卡尔曼滤波器（UKF）作为激光雷达扫描之间的估计。然后将卡尔曼滤波器的输出输入到NDT算法中进行扫描匹配。为了避免不稳定性，仍然使用GNSS数据。

相关概念介绍

车轮编码器（Wheel Encoder）：车轮编码器测量车轮的转动情况，推算出机器人移动的距离。
GNSS（全球导航卫星系统）：GNSS提供全球的绝对定位信息，特别是在开阔空间中，
惯性测量单元（IMU）：IMU测量机器人在运动中的加速度和角速度，提供短时间内的运动信息。
特征点（Feature Points），也称为关键点或兴趣点，是从图像或点云数据中提取出的具有显著性和代表性的点。
特征描述子（Feature Descriptors）是用于描述特征点周围局部区域的特征向量。
显式分配特征（Explicit Feature Matching）指的是明确地识别和匹配图像或点云中的特征点或特征描述子，以实现数据对齐或匹配。
ICP（Iterative Closest Point，迭代最近点）算法是一种广泛用于3D点云配准的经典算法。它的主要目标是将两组点云数据（即源点云和目标点云）对齐，使得源点云与目标点云之间的点云配准误差最小化。
NDT通过将3D点云数据转换为正态分布模型，并在此模型上执行优化来实现点云匹配。
无损检测算法（Nondestructive Testing, NDT）用于在不损坏被检物体的情况下，检测其内部或表面缺陷。
差分进化（DE）是一种全局优化算法，用于优化复杂的目标函数。它的主要特点是通过对候选解的差分操作进行变异、交叉和选择来寻找最优解

九、 Deep Continuous Fusion for Multi-Sensor 3DObject Detection：https://arxiv.org/abs/2012.12397

解读参考：小白解读论文：Multi-Task Multi-Sensor Fusion for 3D Object Detection-CSDN博客

【3D目标检测】Multi-Task Multi-Sensor Fusion for 3D Object Detection阅读笔记（2019）_tor4d-CSDN博客

论文任务：从激光雷达和图像中预测密集深度，并使用预测的深度点来找到两种传感器模态的特征图之间的密集对应关系。Multi-Sensor指标定好的LiDAR-Camera系统。Multi-Task指3d和2d目标识别（侧重于车辆，2D and 3D box regression），路面检测（ground estimation），以及深度补（depth completion）。文章实验以3D目标检测为主。

1、为什么要做这个研究（理论走向和目前缺陷） ?
多传感器融合向来不是一个简单的事，融合方式设计的不好不但可能不会信息互补，还有可能各传感器的缺点都继承下来，效果更差。

2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?
做点云和图像的融合。点云利用的是BEV特征和图像特征借助3d点这个中间媒介进行关联，然后把关联上的图像像素点特征加到BEV特征上去，这是稀疏point-wise融合，在特征提取主干网络阶段实现。利用BEV特征预测的3D候选区分别投射到BEV特征图和图像特征图上，得到的BEV roi特征图并不是像图像特征roi一样是轴对齐的，需要旋转，结合roi align生成一样大小的roi，然后连接到一块得到roi级的融合特征，在输入到下一阶段网络中进一步预测3D框和2D框。此外，结合了地面估计（利用BEV点云作为U-Net输入预测体素级地面高度）和密集深度估计（以雷达前视图点云经过转换生成的稀疏深度图连接原始图像作为输入，预测每个原始图像像素点都有深度值的密集深度图，利用此密集深度图给没有3D雷达点对应图像特征点对应，融合到BEV特征上，这就实现了密集point-wise融合）来提升特征表现力。
3、发现了什么（总结结果，补充和理论的关系）?
融合了预测地面可以有效提升远距离的物体检测。多任务学习效果更好。作者认为3D检测任务比2D检测任务要简单，因为3D检测任务不需要考虑尺寸缩放和遮挡推断的问题，2D图像要考虑目标近大远小以及是否出现的遮挡的问题。