SqueezeSegV2: Improved Model Structure and Unsupervised Domain Adaptation for Road-Object Segmentati

最新推荐文章于 2024-07-08 12:12:29 发布

听风轻咛

最新推荐文章于 2024-07-08 12:12:29 发布

阅读量2.1k

点赞数

分类专栏：深度学习文章标签： deeplearning squeezeseg

本文链接：https://blog.csdn.net/jianin45/article/details/88067920

版权

本文介绍了SqueezeSegV2模型，针对LiDAR点云中的噪声丢失问题进行了改进，提升了模型的精度。通过上下文聚合模块（CAM）、批量标准化、焦点损失和额外输入通道，SqueezeSegV2在实际数据上的性能显著提高。此外，为解决训练模型的高昂成本和域转移问题，提出了一种包含学习强度渲染、测地线相关对齐和渐进域校准的无监督域适应训练管道，显著提高了模型在真实世界数据上的测试精度。

摘要由CSDN通过智能技术生成

摘要 - 早期的工作证明了基于深度学习的点云分割方法的前景;然而，这些方法需要改进才能实用。为此，我们引入了一个新模型SqueezeSegV2，它对于LiDAR点云中的噪声丢失更加稳健。凭借改进的模型结构，训练损失，批量标准化和额外的输入通道，SqueezeSegV2在实际数据训练时实现了显着的精度提高。用于点云分割的训练模型需要大量标记的点云数据，这获得了昂贵的成本。为了回避收集和注释的成本，可以使用诸如GTA-V之类的模拟器来创建无限量的标记合成数据。然而，由于域转移，在合成数据上训练的模型通常不能很好地概括到现实世界。我们通过由三个主要组件组成的域适应训练管道解决了这个问题：1）学习强度渲染，2）测地线相关对齐，以及3）渐进域校准。在对真实数据进行训练时，我们的新模型比原始SqueezeSeg显示的分割精度提高了6.0-8.6％。当使用提出的领域适应管道训练我们关于合成数据的新模型时，我们几乎将实际数据的测试精度从29.0％提高到57.4％。我们的源代码和合成数据集将是开源的。

对环境的准确，实时和稳健的感知是自动驾驶系统中不可或缺的组成部分。对于高端自动驾驶汽车的感知，LiDAR（光探测和测距）传感器起着重要作用。 LiDAR传感器可以直接提供距离测量，其分辨率和视野超过雷达和超声波传感器[1]。 LiDAR传感器几乎在所有照明条件下都很稳定：白天或黑夜，有或没有眩光和阴影[2]。因此，基于LiDAR的感知引起了重要的研究关注。

最近，深度学习已被证明对LiDAR感知任务非常有效。具体来说，吴等人。提出了SqueezeSeg [2]，重点关注点云分割问题。 SqueezeSeg将3D LiDAR点云投影到球面上，并使用2D CNN来预测点云的逐点标签。 SqueezeSeg非常高效 - 最快的版本实现了超过每秒100帧的推理速度。然而，SqueezeSeg仍有一些局限性：首先，它的准确性仍需要提高才能实用。精度降低的一个重要原因是失调噪声 - 由感测范围有限，感应激光的镜像扩散或入射角度抖动引起的感测点云缺失点。这种滤除噪声会破坏SqueezeSeg早期层的输出，从而降低精度。其次，训练SqueezeSeg等深度学习模型需要数以万计的标记点云;然而，收集和注释这些数据比从相机收集可比数据更加耗时和昂贵。 GTA-V用于合成LiDAR点云作为训练数据的额外来源[2];然而，这种方法受到域移位问题的困扰[3] - 在合成数据上训练的模型通常在实际数据上发生灾难性失败，如图1所示。域移位来自不同的来源，但没有辍学噪声和强度信号在GTA-V中有两个重要因素。模拟真实的辍学噪声和强度是非常困难的，因为它需要对LiDAR设备和环境进行复杂的建模，这两者都包含许多非确定性因素。因此，由GTA-V产生的LiDAR点云不包含失落噪声和强度信号。模拟数据和实际数据的比较如图1（a），（b）所示。

在本文中，我们专注于解决上述挑战。首先，为了提高准确性，我们通过提出上下文聚合模块（CAM）来减轻辍学噪声的影响，上下文聚合模块是一种新颖的CNN模块，它聚合来自更大的感知领域的上下文信息，并改善网络的鲁棒性以降低噪声。将CAM添加到SqueezeSegV2的早期层不仅可以显着提高其在实际数据上的性能，还可以有效地缩小域间隙，在合成数据训练时提高网络的实际测试精度。除了CAM之外，我们对SqueezeSeg采用了一些改进，包括使用焦点丢失[4]，批量归一化[5]和LiDAR掩模作为输入通道。这些改进共同将SqueezeSegV2的准确度提高了6.0％ - 在转换后的KITTI数据集的所有类别中为8.6％[2]。

其次，为了更好地利用合成数据来训练模型，我们提出了一个领域适应训练管道，其中包含以下步骤：首先，在训练之前，我们通过学习强度渲染在合成数据中渲染强度通道。我们训练一个以点坐标为输入的神经网络，并预测强度值。可以在未标记的真实数据上以“自我监督”的方式训练该渲染网络。在训练网络之后，我们将合成数据馈送到网络中并渲染强度通道，这在原始模拟中是不存在的。其次，我们使用增强强度的合成数据来训练网络。同时，我们遵循[6]并使用测地线相关对齐来对齐实际数据和合成数据之间的批次