通过LiDAR特征的知识蒸馏提升Radar检测性能

原标题:RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features

论文链接:https://arxiv.org/pdf/2403.05061.pdf

作者单位:汉阳大学 KAIST 首尔国立大学

论文思路:

Radar 数据固有的噪声和稀疏特性,给寻找有效的三维目标检测表示带来了挑战。本文提出了一种新颖的知识蒸馏(KD)方法——RadarDistill,它可以通过利用 LiDAR 数据来改善 Radar 数据的表示。RadarDistill 通过三个关键组件成功地将 LiDAR 特征的理想特性迁移到 Radar 特征中:跨模态对齐(CMA)、基于激活的特征蒸馏(AFD)和基于提议的特征蒸馏(PFD)。CMA通过多层膨胀操作增强Radar 特征的密度,有效地应对了从 LiDAR 到 Radar 的知识迁移不足的挑战。AFD旨在从 LiDAR 特征的重要区域迁移知识,尤其是激活强度超过预定阈值的区域。PFD 指导 Radar 网络模仿 LiDAR 网络在目标提议中的特征,以获得准确的检测结果,同时调节误检提议(如误报)的特征。本文在 nuScenes 数据集上进行的比较分析表明,RadarDistill 在 radar-only 目标检测任务中实现了最先进的(SOTA)性能,达到了 20.5% mAP 和 43.7% NDS 。此外,RadarDistill 显著提高了 camera-radar 融合模型的性能。

主要贡献:

本文的研究首次证明,在训练过程中使用 LiDAR 数据可以显著改善 Radar 目标检测。图1中的定性结果突出显示,通过 RadarDistill 获取的 Radar 特征成功地模仿了 LiDAR 特征,从而提高了目标检测和定位的性能。

本文的发现表明,跨模态对齐(CMA)是 RadarDistill 的关键要素。在没有 CMA 的情况下,本文观察到性能提升显著下降。根据本文的消融研究,CMA 在解决由于 Radar 和 LiDAR 点云密度不同而导致的知识迁移不足中发挥着关键作用。

本文提出了两种新颖的知识蒸馏方法,AFD 和 PFD。这些方法用于弥合 Radar 特征与 LiDAR 特征之间的差异,在两个独立的特征层面上进行操作,并使用了为每个层面特别设计的知识蒸馏损失函数。

RadarDistill 在 nuScenes 基准测试中的 radar-only 目标检测器类别中实现了最先进的性能。它还为 camera-radar 融合场景实现了显著的性能提升。

网络设计:

尽管基于相机和 LiDAR 传感器的三维感知已经被广泛研究,但由于价格实惠以及在恶劣天气条件下的可靠性,Radar 传感器现在正受到关注。Radar 传感器能够在鸟瞰图(Bird's Eye View, BEV)中定位物体,并且通过多普勒频率分析测量它们的径向速度。然而,与 LiDAR 或相机传感器相比,Radar 的主要局限性是其较低的空间分辨率以及由于多路径反射导致的较高的误报可能性。数十年来,许多 Radar 制造商开发了基于手工制作的模型的传统目标检测和跟踪方法,以克服这些局限性。尽管深度神经网络(DNNs)已经显著改善了相机和 LiDAR 传感器的三维感知,但类似的进步并没有在针对 Radar 传感器的特定架构中得到体现。只有少数研究将深度神经网络应用于 Radar 数据。例如,KPConvPillars [28] 和 Radar-PointGNN [26] 分别利用 KPConv [27] 和图神经网络来使用 Radar 点云检测物体。然而,这些方法尚未达到与相机或 LiDAR 数据实现的显著改进水平。最近的研究表明,Radar 可以与相机或 LiDAR 数据有效融合,以增强三维目标检测的鲁棒性[13–15, 21, 31, 42]。

本篇论文聚焦于使用深度神经网络提升 radar-based 三维目标检测性能。本文注意到,Radar 性能的局限性在很大程度上是由于寻找有效表征的挑战,鉴于 Radar 测量的稀疏和噪声特性。受到深度模型编码 LiDAR 点云取得显著成功的启发,本文的目标是将从基于 LiDAR 的模型中提取的知识迁移到基于 Radar 的模型中,以提升其性能。最近,知识蒸馏(Knowledge Distillation, KD)技术在将知识从一个传感器模态迁移到另一个模态方面显示出成功,从而细化目标模型的表征质量。迄今为止,文献中介绍了各种KD方法[3, 4, 8, 11, 16, 32, 40, 41]。跨模态知识蒸馏可以根据学生模型使用的模态大致分为两种方法。当使用相机作为学生模型时,从教师模型到学生模型迁移深度和形状信息。BEVDistill [3]将 LiDAR 和相机特征转换为鸟瞰图(Bird's Eye View, BEV)格式,使得 LiDAR 特征中的空间知识能够迁移到相机特征中。DistillBEV [32]利用 LiDAR 或  LiDAR-Camera 融合模型的预测结果区分前景和背景,引导学生模型专注于在关键区域进行知识蒸馏。S2M2-SSD [40]根据学生模型的预测确定关键区域,并将  LiDAR-Camera 融合模型在关键区域获得的信息进行迁移。除了这些方法,UniDistill [41]采用了一个通用的跨模态框架,使得不同模态之间的知识迁移成为可能。这一框架适应于不同的模态配对,包括 camera-to-LiDAR, LiDAR-to-camera, and (camera+LiDAR)-to-camera 的设置。

本文提出了 RadarDistill,这是一个新颖的知识蒸馏(KD)框架,旨在利用 LiDAR 数据提升 Radar 数据的表征。本文的研究表明,通过采用 Radar 编码网络作为学生网络和 LiDAR 编码网络作为教师网络,本文的 KD 框架有效地生成了类似于从 LiDAR 数据中派生的密集且语义丰富的特征的 Radar 特征,以实现更好的目标检测。尽管在训练阶段使用了 LiDAR 数据及其编码网络来增强 Radar 特征,但在推理阶段并不需要它们。

本文提出的 RadarDistill 基于三个主要思想设计:1) 跨模态对齐(Cross-Modality Alignment, CMA),2) 基于激活的特征蒸馏(Activation-based Feature Distillation, AFD),以及 3) 基于提议的特征蒸馏(Proposal-based Feature Distillation, PFD)。本文的研究表明,由于 Radar 数据固有的稀疏性,将知识从 LiDAR 迁移到 Radar 特征是困难的,这使得与分布更密集的 LiDAR 特征的对齐变得复杂。为了解决这个问题,CMA 通过实施多层扩张操作,增强了学生网络的能力,并同时增加了激活 Radar 特征的比例。

本文提出的 AFD 和 PFD 旨在缩小 Radar 编码网络和 LiDAR 编码网络生成的中间特征之间的分布差距。最初,AFD 对低层特征进行激活感知特征匹配。具体来说,它根据每个特征的激活强度将 Radar 和 LiDAR 的特征划分为活跃区域和非活跃区域,并分别为每个区域构建知识蒸馏(KD)损失。通过给与活跃区域相关联的KD损失更大的权重,AFD 使网络能够集中在迁移重要特征的知识上。

接下来,PFD 实施了基于提议的选择性特征匹配,旨在缩小与 Radar 检测头生成的提议相关联的特征之间的差异。PFD 指导 Radar 网络生成与高级 LiDAR 特征在形状上相似的物体特征,以便准确检测提议。相反地,对于误检的提议,如误报,模型被引导以抑制错误激活的特征,反映出 LiDAR 特征的低激活状态。

综合这些思想,本文的 RadarDistill 在nuScenes基准测试[1]上,相对于当前最先进的(SOTA) radar-only 目标检测方法,实现了在 mAP 上 +15.6% 的增益,以及在 NDS 上 +29.8% 的增益。本文还展示了,当通过 RadarDistill 增强的 Radar 特征集成到 radar-camera 融合模型中时,可以实现显著的性能提升。

RadarDistill_目标检测

图1. RadarDistill 示意图。通过从 LiDAR 特征到 Radar 特征的知识迁移,本文的 RadarDistill 将稀疏且嘈杂的 Radar 特征转换为密集且语义丰富的 类LiDAR 特征,以实现更好的目标检测。

RadarDistill_模态_02

图2. RadarDistill 的整体架构。来自每种模态的输入点云最初通过柱状编码(Pillar Encoding)和稀疏二维卷积神经网络(Sparse 2D CNN)进行处理,以提取低层次特征。CMA 处理 Radar 的低层次特征,使其更加密集,并与 LiDAR 的特征对齐。AFD 区分 Radar 和 LiDAR 特征中的活跃区域和非活跃区域,并使用不同的重要性因子最小化它们的知识蒸馏(Knowledge Distillation, KD)损失。随后,检测头识别出提议级特征,PFD 减少了从 Radar 和 LiDAR 网络获得的提议特征之间的分布差异。LiDAR 数据只在训练阶段需要用来增强 Radar 特征,在推理阶段则不需要。

RadarDistill_人工智能_03

图 3. 所提出的 CMA 模块的详细结构

实验结果:

RadarDistill_目标检测_04

RadarDistill_模态_05

RadarDistill_目标检测_06

RadarDistill_人工智能_07

RadarDistill_模态_08

RadarDistill_目标检测_09

RadarDistill_模态_10

 

总结:

本文引入了一种新的 radar-based 三维目标检测方法 RadarDistill,它通过知识蒸馏利用 LiDAR 数据以提升性能。本文的方法成功地指导了 Radar 编码网络生成与 LiDAR 的详细和语义丰富特征非常相似的 Radar 特征。CMA 提高了学生网络的表达能力,超越了教师网络,使学生网络能够更有效地学习 LiDAR 特征的复杂分布。通过活跃区域感知的特征匹配和提议级选择性特征匹配,AFD 和 PFD 成功减少了来自 LiDAR 特征分布的差异,特别是在中间特征的重要区域内。本文的实验表明,RadarDistill 在 radar-only 的目标检测中达到了最先进的性能,并在 camera-radar 融合场景中提供了显著的性能提升。本文将为 camera-radar 融合专门设计更复杂的知识蒸馏框架的工作留待未来进行。