(ICRA 2024) Diffusion-Based Point Cloud Super-Resolution for mmWave Radar Data

自动驾驶小学生

已于 2024-06-10 17:11:04 修改

阅读量783

点赞数 5

分类专栏：论文笔记文章标签： radar diffusion ICRA2024 radar diffusion vod high resolution

于 2024-05-27 19:41:07 首次发布

本文链接：https://blog.csdn.net/cg129054036/article/details/139245934

版权

论文笔记专栏收录该内容

65 篇文章 172 订阅

订阅专栏

在这里插入图片描述
今天介绍一篇使用Diffusion模型来生成超分辨率雷达点云的方法。毫米波雷达传感器在不利的环境条件下可以保持稳定的性能，使其成为室外移动机器人全天候感知任务的一个有希望的解决方案。然而，雷达点云相对稀疏，同时包含大量鬼点，极大地限制了毫米波雷达技术的发展。

在本文中，作者提出了一种新的毫米波点云超分辨率方法：Radar Diffusion。本文的方法采用逆均值微分方程定义的扩散模型。使用提出的LiDAR点云监督的目标函数，能够有效地处理雷达鬼点，并将稀疏的毫米波雷达点云增强到密集的像激光雷达的点云。在两个不同的数据集上评估了本文提出的方法，实验结果表明本文提出的方法在3D雷达超分辨率任务中优于最先进的基线方法。此外，还证明了增强的雷达点云能够用于下游点云配准任务。

论文链接：https://arxiv.org/abs/2404.06012

1. Approach

Radar-diffusion模型如图2所示，本文提出的方法首先将Radar点云和LiDAR点云转换成BEV图像，随后利用逆均值微分方程的正向扩散过程，将高质量的LiDAR BEV图像退化为低质量的Radar BEV图像。通过使用本文提出的目标函数学习去噪过程，恢复出高质量的类似LiDAR的BEV图像。

在这里插入图片描述

1.1 Data Processing

为了实现跨不同传感器模态的网络处理和学习，首先将 LiDAR 和Radar点云转换为 BEV 图像并提取它们共同视野范围内的点云，数据处理流程如图3所示。

LiDAR地面点云去除：首先从原始LiDAR点云数据中除去地面点云，因为它们缺乏有用的语义信息，可能会阻碍超分辨率学习过程。此外，由于Radar回波强度的分辨率有限，雷达点云通常包含很少的地面点，因此不需要额外的步骤来去除。对于激光雷达数据，使用Patchwork++ 方法从LiDAR点云中检测和去除地面点云。

共享视野点云提取：将激光雷达点云 $x_l,y_l,z_l)$ 与Radar坐标对齐，坐标转换方程如下：
$\left[\begin{array}{llll} x_c & y_c & z_c & 1 \end{array}\right]^{\top}=\left[\begin{array}{cc} \mathbf{R}_l^r & \mathbf{t}_l^r \\ 0 & 1 \end{array}\right]\left[\begin{array}{llll} x_l & y_l & z_l & 1 \end{array}\right]^{\top}$

由于我们想要使用BEV图像来表示点云，我们只关注两个传感器共有的视野范围。激光雷达水平视野为360°，毫米波雷达水平视野为120度。通过计算点云偏航角 $\theta$ ，我们保留偏航角落在 [30°, 150°]的激光雷达点和雷达点。

在这里插入图片描述
BEV图像生成：将LiDAR和Radar点云转换为BEV图像，图像通道信息代表高度。为了创建BEV图像，保留了前向 [0, 30m]、横向 [−15, 15m]，高度方向 [−0.8, 1.7m] 范围内的点云。随后，将这些点云处理成分辨率为 30/256m的BEV图像。每个像素的灰度值 $G_{i,j}$ 是根据落在像素区域内点云最高值确定的，计算公式如下：
$G_{i, j}=\left[\max \left(P_{i, j} *\left[\begin{array}{lll} 0 & 0 & 1 \end{array}\right]^{\top}\right)-\gamma\right]_{+} / \text {range }_z * 255$

其中， $\gamma$ 是预定义的阈值。

多帧输入：鉴于Radar点云的稀疏性，我们使用它们的相对姿态拼接多个连续雷达帧的数据。在实践中，相对位姿可以通过点云配准方法或激光雷达里程计方法获得。我们使用5个连续帧聚合生成的BEV图像作为网络输入。

1.2 Forward Process based on the Mean-Reverting SDE

下面介绍本文使用的扩散模型方法，更详细的证明过程可以参考推荐阅读。

微分方程定义的标准扩散过程如下：

$\mathrm{d} x=f(x, t) \mathrm{d} t+g(t) \mathrm{d} w, \quad x(0) \sim p_0(x)$

其中 $x$ 是指LiDAR BEV图像， $f (x, t)$ 和 $g (t)$ 是drift和dispersion函数， $w$ 是标准布朗运动。通常，终止状态 $x (T)$ 服从均值为零且方差固定的高斯分布。与广泛应用于视觉任务的标准SDE方程不同（将随机高斯噪声添加到 $x$ 中）。为了将LiDAR BEV图像退化建模为雷达BEV图像，我们采用均值回归随机微分方程，最终状态均值非零。采用均值回归微分方程符合我们将雷达数据与激光雷达数据进行匹配的目标，让模型在推理过程中生成超分辨率雷达数据。整个前向过程可以表述为：

$\mathrm{d} x=\theta_t(\mu-x) \mathrm{d} t+\sigma_t \mathrm{~d} w, \quad x(0) \sim p_0(x)$

其中， $\mu$ 是雷达BEV图像， $\sigma_t$ 为扩散系数。同时 $\sigma^2/\theta_t=2\lambda$ ，其中 $\lambda^2$ 为静态方差，我们推导出 $x (t)$ 的分布为：

$\begin{gathered} p_t(x)=\mathcal{N}\left(x(t) \mid m_t(x), v_t\right), \\ m_t(x):=\mu+(x(0)-\mu) \mathrm{e}^{-\bar{\theta}_t} \\ v_t:=\lambda^2\left(1-\mathrm{e}^{-2 \bar{\theta}_t}\right), \\ \bar{\theta}_t:=\int_0^t \theta_z \mathrm{~d} z, \end{gathered}$

其中，当时间 $t$ 趋于无穷大时，状态 $m_t$ 和方差 $v_t$ 分别收敛到 $μ$ 和 $λ^2$ 。这意味着通过逐步添加噪声，LiDAR BEV图像的终止状态 $x (T)$ 收敛到具有固定高斯噪声 $N (0, λ)$ 的雷达BEV图像 $μ$ 。

1.3 Denoising Process on the Mean-Reverting SDE

下面介绍去噪过程，为了恢复类似LiDAR的BEV图像，去噪公式为：

$\mathrm{d} \tilde{x}=\left[\theta_t-\sigma_t^2 \nabla_{\tilde{x}} \log p_t(\tilde{x})\right] \mathrm{d} t+\sigma_t \mathrm{~d} w, \tilde{x}(T)=x(T)$

其中， $\nabla_{\tilde{x}} \log p_t(\tilde{x})$ 是分数函数，由U-Net网络学习而来。具体地，我们可以得到分数函数的真值，即：

$\nabla_{\tilde{x}} \log p_t(\tilde{x})=-\frac{\tilde{x}(t)-m_t}{v_t} .$

通过重写 $\tilde{x}(t)=m_t(\tilde{x})+\sqrt{v_t} \epsilon_t$ ，其中 $\epsilon_t$ 符合 $N (0, I)$ 分布，分数函数为：

$\nabla_{\tilde{x}} \log p_t(\tilde{x})=-\frac{\epsilon_t}{\sqrt{v_t}}$

神经网络基于当前状态，条件 $u$ 和时间 $t$ 去预测噪声 $\tilde{\epsilon} (\tilde{x}(t),μ,t)$ 。

1.4 Objective Function

我们使用如下的目标函数来训练网络：
$\begin{aligned} J(\tilde{\epsilon}): & =\sum_{i=1}^T \gamma_i \mathbb{E}[\|\underbrace{\tilde{x}(i)-(\mathrm{d} \tilde{x}(i))_{\tilde{\epsilon}}}_{\text {reversed } x(i-1)}-x(i-1)\|], \\ & =\sum_{i=1}^T \gamma_i \mathbb{E}[\|\tilde{x}(i-1)-x(i-1)\|], \end{aligned}$

其中， $x (i - 1)$ 是 $\tilde{x}(i)$ 的理想状态。这个目标函数利用去噪过程中的累积误差，为图像生成任务实现更稳定的训练。

然而，与视觉图像生成任务不同，激光雷达和雷达BEV图像的数据分布明显不平衡。我们观察到LiDAR BEV图像中的空白区域通常比实际传感器检测到的区域大20倍。同等权重学习的话会导致网络简单地将每个区域预测为空白。因此，我们将目标函数分为两部分，分别考虑空白区域和实际检测区域。为此，我们计算掩码 $M = [[x (0) > 0]]$ 和 $\overline{M}=[[ x(0) == 0]]$ ，最终的目标函数为：

$J_{target} + w \times J_{blank} \\ J_{target}=\sum_{i=1}^{T}{ \mathbb{E}(||M\odot \tilde{x}(i-1) - M\odot {x}(i-1)||)} \\ J_{blank}=\sum_{i=1}^{T}{ \mathbb{E}(||\overline{M}\odot \tilde{x}(i-1) - \overline{M}\odot {x}(i-1)||)}$

使用我们提出的目标函数显著提高了实验中的整体性能。

2. Experimental Evaluation

2.1 Dataset、Implementation Details、Performance on Point Cloud Super-Resolution

我们在VOD数据集和 RadarHD 数据集上训练和评估本文的方法。VOD数据集包含8693帧LiDAR和Radar室外数据，RadarHD数据集为室内数据，点云数据没有高度信息。我们的评估数据集涵盖了室外城市道路和室内环境，以测试不同方法的稳健性。

我们使用Lion优化器训练模型，初始学习率为 $\times 10^{-5}$ 。对于正向扩散过程和目标函数，噪声 $σ = 50$ 和权重 $w = 2$ 。 $γ_i=1$ 在所有时间步中是相同的。我们在单个 NVIDIA RTX 4090 上训练模型，batch size 大小为8，总训练时间需要9小时。

我们评估了在VOD和RadarHD数据集上点云超分辨率性能。对于VOD数据集，我们选择7831帧用于训练，635帧用于测试。测试集包含未见训练集中未出现的场景，对模型泛化能力进行全面评估。对于RadarHD数据集，选择28个轨迹的22784帧进行训练，39个不同的轨迹的36779帧用于测试。由于RadarHD数据集只包含2D雷达数据，我们为3D雷达点云设计的方法并不直接适用。因此，我们采用以下修改对RadarHD数据集进行训练。我们将输入雷达BEV图像的灰度值设置为点云强度，将输入的LiDAR BEV图像像素值设置为{0，255}，表示是否有点存在。

评价指标：我们使用以下指标来评估增强雷达点云的质量（与LiDAR点云相比）：

（1） $FID_{BEV}$ ：生成Radar BEV 图像与LiDAR BEV图像；
（2）Chamfer Distance (CD)：每个点到另一个点云中最近邻点的平均距离；
（3）Modified Hausdorff Distance (MHD)：每个点到另一点云中最近邻点的中值距离；
（4）Unidirectional Chamfer Distance (UCD)：从激光雷达点云到增强雷达点云的CD距离；
（5）Unidirectional Modified Hausdorff Distance (UMHD)：从LiDAR点云到增强雷达点云MHD距离。

结果：我们发现的唯一基线是用于2D雷达点云超分辨率的RadarHD。因此，为了公平比较，我们在2D中进行了所有指标比较，即仅使用 (x, y) 坐标，同时在消融研究中提供 3D 评估结果。

实验结果如表1所示，VOD数据集上，我们提出的方法在所有指标上产生了更好的结果，平均提高了58.4%。值得注意的是，我们的方法在UCD和UMHD指标方面表现出比RadarHD显著优势，在UCD上实现了64.7%的提高，UMHD提高了70.8%。
在RadarHD数据集上，我们的方法在FID、UCD和UMHD指标方面保持了优势。然而，与RadarHD相比，我们的方法在CD和MHD指标中显示出一定的下降。这是因为我们的方法可以生成更密集的点云，甚至可以生成原始LiDAR点云中不存在的信息，因此在CD和 MHD指标中引入了更大的误差。

在这里插入图片描述
为了更深入地理解所提出的雷达扩散模型，我们可视化增强的3D雷达点云，如图4所示。由于RadarHD只能生成2D雷达点云，我们将其生成的BEV图像可视化进行比较。可以看出，我们的方法增强的点云有效地捕捉整体布局。我们进一步放大具有代表性的区域，如车辆和行人，以便仔细检查。如图所示，我们的增强点云对对象具有逼真的几何结构，同时丰富了它们在 LiDAR 点云中被遮挡的细节。

在这里插入图片描述

2.2 Performance on Downstream Task: Registration

我们的增强点云呈现出精确的整体布局，同时具有丰富的细节，使它们能够完成下游任务。在这个实验中，我们展示了增强点云对下游任务的能力。我们在VOD数据集的测试集上评估我们的方法。选择真值位姿距离大于1m的点云对作为测试样本。

指标：我们使用三个指标来评估配准性能：i) 相对平移误差 (RTE)，它测量估计平移向量和真值平移向量之间的欧几里得距离，ii) 相对旋转误差 (RRE)，它是估计旋转和真值旋转之间的平均差异，以及 iii) 配准召回率 (RR)，表示在某些阈值下具有 RRE 和 RTE 的扫描对的比例，例如 5° 和 0.5m。

结果如下表2所示，我们利用最先进的配准方法RDMNet对原始雷达点云和增强雷达点云进行点云匹配。它是一种基于深度学习的方法，可以在两个点云上找到密集点匹配，然后进行准确的配准。我们直接将其应用于不同的点云数据来评估。如前所述，我们的增强点云在可靠配准方面表现出良好的一致性和准确性。在图5中使用不同的点云可视化了一些配准结果。可以看出，由于原始雷达数据的稀疏性质，配准过程未能对齐两个重叠的雷达扫描。相比之下，增强的雷达数据可以对齐相应的LiDAR点云的配准结果。

在这里插入图片描述

2.3 Ablation Studies

我们进行消融研究以证明我们的设计有效性。

首先，我们研究了目标函数，表3中与原始目标函数相比，使用我们提出的目标函数显著提高了所有指标的性能。w的不同选择对网络最终性能有不同的影响。更大的w值旨在鼓励网络采用更保守的方法，使其更倾向于生成不明确或模棱两可的区域作为空白。我们使用 w=2作为默认值，因为它实现了最平衡的性能。
其次，我们研究了输入帧的数量。如表3所示，我们的方法可以处理不同数量的输入。合并5帧雷达点云会产生最佳性能。

在这里插入图片描述