论文解读--Raw High-Definition Radar for Multi-Task Learning

奔袭的算法工程师

已于 2024-02-07 14:11:21 修改

阅读量2.3k

点赞数 2

分类专栏：论文解读文章标签：人工智能深度学习自动驾驶神经网络目标检测

于 2022-11-15 16:15:16 首次发布

本文链接：https://blog.csdn.net/weixin_41691854/article/details/127867777

版权

论文解读专栏收录该内容

31 篇文章

订阅专栏

用于多任务学习的原始高清雷达

图1.我们的RADIal数据集的概述。RADIal包括3个传感器（相机、激光扫描仪、高清雷达），配备GPS和车辆CAN跟踪；25k同步样本为原始格式。(a)摄像头图像，红色投影激光点云，靛蓝色标注雷达点云，橙色标注车辆，绿色标注自由驾驶空间标注；(b)雷达功率谱带边界框标注；鸟视图标注(c)自由驾驶空间标注，橙色边界框标注车辆，靛蓝色标注雷达点云，红色标注激光点云；笛卡尔坐标系(d)范围方位地图叠加雷达点云和激光点云；(e)红色标注GPS轨迹，绿色里程计轨迹重建。

摘要

雷达传感器具有对恶劣天气条件的鲁棒性和测量速度的能力，20多年来一直是汽车领域的一部分。近年来，高清晰度（HD）成像雷达的研究进展使其角度分辨率低于1度，从而接近激光扫描性能。然而，高清雷达提供的数据量和估计角度位置的计算成本仍然是一个挑战。在本文中，我们提出了一种新的高清雷达传感模型，FFT-RadNet，它消除了计算距离-方位角-多普勒三维张量的开销，而不是学习从距离-多普勒频谱中恢复角度。FFTRadNet接受了检测车辆和分割自由驾驶空间的训练。在这两项任务上，它都在与最新的基于雷达的模型竞争，同时需要更少的计算和内存。此外，我们还从不同环境下（城市街道、高速公路、乡村公路）的同步汽车级传感器（照相机、激光、高清雷达）中收集并标注了2小时的原始数据。这个独特的数据集，被命名为“雷达，激光雷达等人”，可以在https://github.com/valeoai/RADIal上找到。

1.介绍

汽车雷达自90年代末就开始生产了。它们是自适应巡航控制、盲点检测和自动紧急制动功能的首选、最实惠的传感器。然而，它们的角度分辨率较差，这阻碍了它们在自动驾驶系统中的应用。实际上，这种系统需要高水平的安全性和健壮性，通常可以通过冗余机制来达到。虽然通过融合几种模式来改进传感，但只有当每个传感器达到足够和可比较的性能时，整体组合才能工作。高清（HD）成像雷达已经出现，以满足这些要求。通过使用密集的虚拟天线阵列，这些新的传感器在方位角和高程（水平和垂直角度位置）上都实现了高角度分辨率。并产生更密集的点云。

随着深度学习的快速发展和公共驾驶数据集的可用性，如[4,6,12]，基于视觉的驾驶系统的感知能力（检测物体、结构、标记和标志、估计深度、预测其他道路使用者的运动）的能力显著提高。这些进展迅速扩展到深度传感器，如激光扫描仪（LiDAR），并借助特定的架构来处理3D点云[19,42]。

表1.带有雷达的公开驾驶数据集。数据集是“小”（<15k帧）、“大”（>130k帧）或“中”（介于两者之间）。雷达采用低清晰度（LD）、高清（HD）或扫描(S)，其数据以不同的形式发布，包括不同的信号处理管道：模数转换器（ADC）信号、方位多普勒（RAD）张量、方位（RA）视图、多普勒（RD）视图、点云（PC）。多普勒信息的存在取决于雷达传感器。其他传感器模式包括相机(C)、激光雷达(L)和测程仪(O)。RADIal是唯一提供高清雷达的数据集，结合相机，激光雷达和测程，同时提出检测和自由空间分割任务。

令人惊讶的是，与其他传感器相比，雷达信号处理在这种情况下采用深度学习的速度要慢得多。这可能是由于数据的复杂、性质和缺乏公共数据集。事实上，最近在基于雷达的车辆感知领域的关键贡献已经随着数据集的发布一起出现。有趣的是，最近的大多数工作都利用了雷达数据的距离-方位角（RA）表示（在极坐标或笛卡尔坐标下）。类似于鸟瞰图（见图1d），这种表示方式很容易解释，并允许通过平移和旋转进行简单的数据增强。然而，一个几乎没有被提及的缺点是，RA雷达地图的产生产生了巨大的处理成本（数十个GOPS，见第6.5节），这损害了其在嵌入式硬件上的可行性。虽然新型高清雷达提供了更好的分辨率，但它们使这种计算复杂性问题更加严重。

由于高清雷达的良好能力，我们的工作主攻这个问题，以提高其实用性。特别地，我们提出： (1) FFT-RadNet，一种优化的深度架构，以降低成本处理高清雷达数据，针对两种不同的感知任务，即车辆检测和自由空间分割；(2)比较各种雷达信号表示在性能、复杂性和内存占用方面的实证分析；(3) RADIal，第一个原始高清雷达数据集，包括其他几个汽车级传感器，如表1所示。

本文组织如下：第2和3节讨论雷达背景和相关工作；第4和5节介绍了FFT-RadNet和RADIal；实验报告在第6节，第7节总结。

2.雷达背景

雷达通常由一组发射天线和接收天线组成。发射机发射电磁波，并被环境中的物体反射回接收器。在汽车行业的标准产品[3,13]中，一种调频连续波（FMCW）雷达会发出一系列被称为chirip的调频信号。发射和接收之间的频率差主要是由于障碍物的径向距离。因此，通过快速傅里叶变换（rangeFFT）沿着chirp序列的快速傅里叶变换（FFT）来提取这个距离。沿时间轴的第二个FFT（多普勒-FFT）提取相位差，它捕获反射器的径向速度。这2个FFTs的组合为每个接收天线（Rx）提供了一个范围-多普勒（RD）频谱，所有的Rx存储在一个RD张量中。到达的角度（AoA）可以通过使用多个Rx来估计。由于Rx天线之间的距离较小，可以观察到接收信号的相位差。一种常见的做法是沿着通道轴应用第三个FFT（angle-FFT）来估计这个AoA。

雷达区分具有相同范围和速度但具有不同角度的两个目标的能力被称为其角度分辨率。它与天线孔径成正比，即第一个天线和最后一个天线之间的距离。多输入多输出（MIMO）方法[9]通常用于在不增加物理孔径的情况下提高角分辨率：每增加一个发射天线（Tx），角分辨率就增加2倍。MIMO系统分别表示NTx和NRx的Tx和Rx信道的数量，建立了NTx·NRx天线的雷达型模态序列ADC RAD RA或RD PC多普勒虚拟阵列。为了防止发射信号的干扰，发射机同时发射相同的信号，但在两个连续的天线之间有轻微的相移∆ϕ。这种方法的缺点是，每个反射器的特征在RD光谱中出现NTx次数，使数据交错。

要将AoA转换为一个有效的角度，就需要校准传感器。第三个FFT的另一种选择是在复杂域中将RD谱与校准矩阵相关联，以估计角度（方位角和高度）。对于RD张量的单个点，该操作的复杂性为O（NTxNTxNRxBABE），其中BA和BE分别是校准矩阵中方位角和仰角的离散箱数。对于距离-方位角-高程-多普勒的四维表示，需要对RD张量的每个点进行此操作。

综上所述，对于嵌入式高清雷达，传统的信号处理方法在计算需求和内存占用的资源都过于庞大，无法应用。因此，对于驾驶辅助系统，在控制处理成本的同时提高雷达的角度分辨率面临着挑战。

3.相关工作

雷达数据集。传统的雷达在成本和性能之间提供了一个很好的权衡。虽然它们提供了精确的距离和速度，但它们的方位角分辨率较低，导致了在分离近距离物体时的模糊性。最近的数据集包括经过处理的雷达表示，如整个距离-方位-多普勒（RAD）张量[31,43]或该张量的单视图-距离-方位（RA）[1,17,27,38,41]或距离-多普勒（RD）[27]。这些表示需要传输大的带宽和大的内存存储。因此，包含多个样本模式的数据集，如nuScenes [4]，只提供雷达点云，一个更轻的表示。然而，它是一个有限的处理表示，并且它偏向于信号处理管道。其他几个数据集使用360◦扫描雷达[1,17,38]。然而，它的角度分辨率与传统雷达一样有限，而且它不提供多普勒信息。

如前所述，最近的高清雷达利用大型虚拟天线阵列成功地达到了低于这个度的方位角分辨率。Zendar数据集[27]为这种雷达提供距离-多普勒和距离-方位角视图。Astyx [24]和RadarScenes[36]数据集都包含作为点云处理的高清雷达数据。

据我们所知，没有开源的高清雷达数据集可以在各种驾驶环境中提供结合相机和激光雷达的原始数据，我们的数据集正在填补这个空白。表1总结了公开使用的雷达驾驶数据集的特征。

雷达目标检测。低清晰度（LD）雷达已被用于许多应用场景，如手势识别[10]、[15]门内检测目标或人和空中监测[26]。对于汽车应用，选择RAD张量的单个视图作为特定神经网络结构的输入，以检测考虑视图中对象的签名，无论是RA [8,40]还是RD [28]。不同的是，[44]使用雷达视图来定位相机图像中的物体，[2]提出了一种两阶段的方法来仅使用RD视图来估计被检测物体的方位角。

特定的架构被设计为摄取RAD张量的聚合视图，以检测RA视图[11,23]中的对象。整个张量也被考虑过了，无论是在RA和RD视图[43]中的目标检测，还是在相机图像[32]中的目标定位。

由于应用了预处理，雷达点云包含的信息比RAD视图少。然而，[7,35]利用LR雷达进行二维目标探测，[25]表明高清雷达点云在这项任务上可以优于激光雷达。

这些工作都没有提到生成RAD张量或点云的预处理成本，这些都被认为是理所当然的。事实上，高清雷达不能被前面提到的方法使用，因为它不适合于即使是最大的汽车嵌入式设备。例如，将[11]应用于高清雷达，每个时间戳的输入数据将占用450MB，仅一个高度（使用[11]）就需要4.5·10^10FLOPS2。据我们所知，以前还没有关于端到端目标探测的工作，能够利用原始的高清雷达数据进行扩展。

雷达语义分割。由于缺乏标注的数据集，对雷达表示上的语义分割的研究较少。RA观点一直是多类[16]和自由空间[29]分割的研究课题。在[30]中考虑了整个RAD张量进行多视图分割。雷达点云分割也被探索用于估计鸟瞰图占用网格，无论是LD [22,39]或HD [33,34,37]雷达。

同样，这些方法都不能扩展到原始的高清雷达数据，例如执行自由空间分割。此外，目前还没有关于仅利用高清雷达信号的RD视图进行自由驾驶空间分割或语义分割的工作。此外，目前还没有能够同时执行雷达目标检测和语义分割的多任务模型。接下来，我们详细介绍了我们的方法，减少内存和复杂性，使用原始高清雷达信号执行车辆检测和自由驾驶空间分割。

图2.可训练的MIMO预编码器。考虑三个发射机（NTx = 3）和两个接收机（NRx = 2），一个物体的签名在RD光谱中是可见的NTx时间。该预编码器使用真主卷积来组织和压缩少于NTx·NRx输出通道中的签名。

4.FFT-RadNet架构

我们的方法是基于汽车方面的限制：必须使用汽车级传感器，而嵌入式硬件上只有有限的处理/内存资源。在这种情况下，RD频谱是唯一可行的表示高清雷达表示。在此基础上，我们提出了一种与上述要求兼容的多任务体系结构，它由五个块组成（见图3）：

•一个预编码器重组和压缩RD张量到一个有意义和紧凑的表示;

•将低分辨率语义信息与高分辨率细节相结合的共享特征金字塔网络(FPN)编码器;

•从特征金字塔构建距离-方位潜在表示的距离-角度解码器;

•探测头定位车辆在距离-方位坐标;

•预测空闲行驶空间的分割头。

4.1.MIMO预编码器

如第2节所述，MIMO配置为每个接收机提供一个复杂的RD频谱。这就产生了一个复杂的三维张量(BR, BD, NRx)，其中BR和BD分别是距离和多普勒离散单元的数量。理解给定的反射对象(比如前面的一辆汽车)如何出现在数据中是很重要的。R表示该物体到雷达的实际径向距离，D用多普勒效应表示其相对径向速度。对于每个接收器，它的信号将被显示NTx次，每个发射机一个。更具体地说，将在距离-多普勒位置(R，(D+k∆)[Dmax])k=1···NTx进行测量，其中∆为多普勒频移(由发射信号中的相移∆φ诱导)，Dmax为可测量的最大多普勒。测量的多普勒值是对这个最大值的模。

这种信号的复杂性要求RD张量的重排，这将促进MIMO信息的后续利用(以恢复角度)，同时保持数据量在控制之下。为此，我们提出了一种新的可训练的预编码器，它对输入张量进行如此紧凑的重组(图2)。为了最好地处理其沿多普勒轴的特定结构，我们首先使用一个适当定义的Atrous卷积层，该层在正确的位置收集Tx和Rx信息。对于一个输入通道，其核的大小为1×NTx，因此用Tx天线的数量来定义，其膨胀量为δ =∆BD / Dmax，即多普勒频移∆对应的多普勒仓的数量。输入通道数为Rx天线的NRx个数。第二个卷积层(使用3×3内核)学习如何组合这些通道并压缩信号。两层预编码器与所提议的体系结构的其余部分进行端到端训练。

4.2.FPN预编码器

利用金字塔结构学习多尺度特征是目标检测[20]和语义分割[45]中常用的方法。我们的FPN架构使用4个块，分别由3、6、6和3个剩余层[14]组成。这些残块的特征图形成特征金字塔。在控制数据复杂性的同时，考虑到数据的性质，对经典编码器进行了优化。事实上，选择信道维度最多是为了编码整个距离范围内的方位角(即，远距离的高分辨率和窄视场，近距离的低分辨率和宽视场)。为了防止丢失小对象的特征(通常是RD光谱中的几个像素)，FPN编码器对每个块执行2×2下采样，导致张量大小在高度和宽度上减少了16倍。出于类似的原因，为了避免相邻Tx之间的重叠，它使用了3×3卷积核。

4.3.距离-角度解码器

距离-角度解码器的目标是将输入特征映射扩展到更高分辨率的表示。这种缩放通常通过多个反褶积层来实现，其输出与之前的特征图相结合，以保留空间细节。在我们的例子中，由于轴的物理性质，这种表示是不同寻常的:输入张量的维度分别对应于距离、多普勒和方位角，而将被发送到后续任务头的特征映射应该对应于距离-方位角表示。因此，我们交换多普勒轴和方位角轴以匹配最终的轴排序，然后升级特征图。然而，距离轴的尺寸比方位角轴小，因为在每个剩余块之后，距离轴被抽取了2倍，而方位角轴(以前是通道轴)在增加。在这些操作之前，我们对从编码器到解码器的特征映射应用1×1卷积。在交换坐标轴之前，它将方位角通道的尺寸调整到最终大小。反褶积层只增加了距离轴，产生了与前一个金字塔层的特征图相连接的特征图。最后一个由两个Conv-BatchNorm-ReLU层组成的块被应用，生成最终的距离-方位潜在表示。

图3：FFT-RadNet概述。FFT-RadNet是一个轻量级的多任务架构。它不使用任何RA映射或RAD张量，这将需要昂贵的预处理。相反，它利用了包含所有距离、方位角和仰角信息的复杂距离多普勒光谱。这些数据被MIMO预编码器去交错和压缩。FPN编码器提取特征金字塔，该金字塔由距离-角度解码器转换为潜在的距离-方位角表示。在此基础上，多任务头最终实现对车辆的检测和自由行驶空间的预测。

4.4.多任务学习

检测任务。检测头的灵感来自Pixor[42]，一个高效和可扩展的单级模型。它将RA潜在表示作为输入，并使用四个Conv-BatchNorm层的第一公共序列处理它，分别具有144、96、96和96个过滤器。然后在分类和回归路径中划分分支。分类部分是一个具有sigmoid激活的卷积层，它预测一个概率图。该输出对应于每个“像素”被车辆占用或未被车辆占用的二进制分类。为了减少计算复杂度，它预测一个粗糙的RA映射，其中每个单元有0.8米的分辨率在范围和0.8◦方位角(即，1/4和1/8的本机分辨率resp。在距离和方位上)。这个单元格大小足以分离两个相邻的物体。然后，回归部分精细预测被测物体对应的距离和方位角值。为此，一个独特的3×3卷积层输出两个特征映射，响应最终的距离和方位角值。

这个双重检测头训练了一个多任务损失，包括应用于所有位置的焦点损失用于分类，以及仅应用于阳性检测的回归的“平滑L1”损失(参见[42]了解这些损失的详细信息)。设x为训练例，为分类基础真值，为相关回归基础真值。FFT-RadNet的检测头预测了一个检测映射和相关的回归映射。它的训练损失如下:

，（1）

其中β > 0是一个平衡超参数。

分割任务。自由行驶空间分割任务被表述为像素级的二进制分类。分割掩模的分辨率为0.4m在范围和0.2◦方位角。它对应于一半的本机范围和方位角分辨率，而只考虑整个方位角FoV的一半(在[- 45◦，45◦])。RA潜在表征由两组连续的Conv-BatchNorm-ReLu块处理，分别生成128和64个特征图。最后的1×1卷积输出一个2D特征图，然后是sigmoid激活，以估计每个位置可驾驶的概率。设x为训练例，为其热点真值，而为预测的软检测映射。使用二元交叉熵损失学习分割任务:

，（2）

这里，。

端到端多任务训练。整个FFT-RadNet模型通过最小化之前的检测和分割损失的组合来训练:

，（3）

涉及MIMO预编码器、FPN编码器、RA解码器和两个头部的参数;λ是一个正超参数，它平衡这两个任务。

5.RADIal数据集

如表1所示，公开的数据集不提供原始雷达信号，无论是LD雷达还是HD雷达。因此，我们建立了一个新的数据集RADIal，可以研究汽车高清雷达。由于RADIal包括3种传感器模式-相机，雷达和激光扫描仪，它也应该允许人们研究融合高清雷达与其他更经典的传感器。所使用的传感器套件的详细规格见附录A。除摄像头外，所有传感器均为汽车级合格。在此基础上，还提供了车辆的GPS位置和全CAN总线(包括里程计)。传感器信号以原始格式同时记录，没有进行任何信号预处理。在高清雷达的情况下，原始信号是ADC。从ADC数据中，可以生成所有常规雷达表示:距离-方位角-多普勒张量、距离-方位角和距离-多普勒视图或点云。

RADIal包含91个片段，时长约1-4分钟，共计2小时。这总共相当于约25k同步帧，其中8252帧被标记为9550辆车辆(详见附录A)。车辆注释由图像平面上的2D框以及与传感器的真实距离和多普勒值(相对径向速度)组成。雷达信号的RD谱表示对人眼来说没有意义，因此很难实现对雷达信号的注释。

车辆检测标签首先通过摄像头和激光扫描仪的监督自动生成。利用一个RetinaNet模型[21]从摄像机中提取物体建议。然后，当雷达和激光雷达在各自点云的目标位置上达成一致时，这些建议就被验证。最后，进行人工验证，拒绝或验证标签。自由空间标注是完全自动完成的相机图像。在Cityscape上预先训练的DeepLabV3+[5]，在数据集的一个小的手动注释部分上使用两个类(空闲空间和已占用)进行了微调。该模型对每一帧视频进行分割，得到的分割掩模通过已知标定从摄像机坐标系投影到雷达坐标系。最后，从自由空间蒙版中减去已经可用的车辆边界框。由于我们采用的自动化方法和从相机到真实世界的投影不准确，分割掩模的质量受到限制。

6.实验

6.1.训练细节

提出的体系结构已经在RADIal数据集上进行了训练，仅使用RD谱作为输入。RD频谱由复数组成，我们将其实部和虚部沿通道轴叠加，然后将其传递给MIMO预编码器。数据集被划分为训练集、验证集和测试集(约70%， 15%和15%的数据集)，这样来自同一序列的帧就不会出现在不同的集合中。我们手动将测试数据集分为“困难”和“容易”两种情况。困难情况主要是雷达信号受到干扰的情况，例如，受到其他雷达的干扰、重要的副瓣效应或金属表面的显著反射。

FFT-RadNet体系结构使用4.4节中详细介绍的多任务损耗进行训练，并通过经验设置以下超参数:λ = 100， β = 100和γ = 2。训练过程在100个周期内使用亚当优化器[18]，初始学习率为10 - 4，每10个周期衰减0.9。

6.2.基线

提出的体系结构已与雷达界最近的贡献进行了比较。在第3节中介绍的大多数竞争方法都是为LD雷达设计的，由于内存限制，不能与HD雷达数据进行伸缩。相反，在输入表示(距离-方位角或点云)方面选择了具有相似复杂性的基线，以进行公平的比较。使用传统的信号处理管道为整个训练、验证和测试集生成输入表示(RD、RA或点云)。

用点云进行目标检测。采用Pixor[42]方法对雷达点云进行体素化处理后，在雷达周围(纵向、横向和垂直范围)形成[0 m、103 m]×[−40 m、40 m]×[−2.5 m、2.0 m]的三维体积，并在每个方向0.1m处采样后，对车辆进行检测。因此，这个输入3D网格的大小是1030×800×45。Pixor是一种旨在实现实时的轻量级架构。然而，它的输入表示产生96MB的数据，这对嵌入式设备来说是一个挑战。

RA张量做目标检测。如第3节所述，一些方法[11,23]使用RAD张量的视图作为输入。然而，内存的使用对于高清雷达数据来说太过庞大。[23]表明，只使用RA视图可以获得更好的对象检测性能，因此我们将我们的方法与不使用体素化模块的Pixor体系结构进行比较。它采用RADIal RA表示作为输入，尺寸为512×896，范围值为[0m, 103m]，方位角为[−90◦，90◦]。

自由空间分割。我们选择PolarNet[29]来评估我们的方法。它是一个轻量级架构，设计用于处理RA映射和预测空闲空间。我们根据自己的理解重新执行了它。

表2：RADIal测试集分组的目标检测性能。用点云(' PC ')或距离-方位(' RA ')表示训练的Pixor与只需要距离-多普勒(' RD ')作为输入的FFT-RadNet之间的比较。对于50%的欠条阈值，我们的方法在平均精度(“AP”)和平均召回率(“AR”)方面都获得了与基线相似或更好的总体性能。它还达到了类似或更好的范围(' R ')和角度(' A ')精度，表明它成功地学习了一个信号处理管道，该管道估计AoA的操作明显更少，如表4所示。

图4：容易和困难样本上目标检测和自由空间分割的定性结果。相机视图(第一行)显示仅供视觉参考;RD谱(第二行)是模型的唯一输入;这两个任务都显示了基本事实(第三行)和预测(第四行)。注意，由于车辆的俯仰变化，从相机到现实世界的自由驾驶空间可能会有投影误差。

6.3.评价尺度

对于目标检测，平均精度(AP)和平均召回率(AR)被用于考虑50%的交叉过并(IoU)阈值。对于语义分割，在二元分类任务(空闲或占用)上使用平均IoU (mIoU)度量。公制是在缩小的[0m, 50m]范围内计算的，因为超过这个距离几乎看不到路面的边界。

6.4.性能分析

目标检测。目标检测的性能如表2所示。我们观察到，使用距离多普勒作为输入的FFT-RadNet性能优于Pixor基线，而使用PC作为输入(Pixor-PC)的性能略好于昂贵的Pixor- RA基线。定位精度，无论是在距离和方位角，是相似的，甚至更好的角度，相比Pixor-RA。这些结果表明，我们的方法成功地从数据中学习到方位角。从制造的角度来看，注意这打开了节省成本的机会，因为在拟议的框架中不再需要传感器的线尾校准。在简单测试集中，与Pixor-RA相比，FFT-RadNet提供+1.6%的AP和+3.6%的AR。然而，在硬测试集上，Pixor-RA表现最好。RA方法在处理硬样本时不会有太大困难，因为数据是通过信号处理管道进行预处理的，该管道已经解决了其中一些情况。相比之下，使用点云输入的性能要低得多。事实上，召回率很低，因为远距离的点数有限。

自由驾驶空间分割。自由驾驶空间分割的性能如表3所示。我们观察到FFT-RadNet的平均IoU显著高于PolarNet 13.4%。这在一定程度上是由于RA图中缺乏海拔信息造成的，而海拔信息则出现在RD光谱中。

表3：自由驾驶空间分割性能。FFT-RadNet成功地逼近了雷达数据中的角度信息，并且达到了比PolarNet更好的性能。注意，该性能是通过FFT-RadNet实现的，同时执行对象检测，因为我们的模型是多任务的。

6.5.复杂度分析

FFT-RadNet的设计首先是为了摆脱信号处理链，这些信号处理链将ADC数据转换为稀疏点云或更密集的表示(RA或RAD)，同时不影响信号的丰富性。由于输入数据仍然相当大，我们设计了一个紧凑的模型来限制操作数量方面的复杂性，作为性能和范围/角度精度之间的权衡。此外，预编码器层显著压缩输入数据。研究人员进行了消融研究，以确定特征映射的大小和模型性能之间的最佳权衡(详见附录B)。

如表4所示，FFT-RadNet是唯一不需要AoA估计的方法。如第2节所述，预编码器层压缩包含所有信息的MIMO信号，以恢复方位角和仰角。点云方法的AoA为平均约1000点的稀疏云生成3D坐标，在应用Pixor进行目标检测之前，导致8GFLOPS的计算量。为了产生RA或RAD张量，AoA对RD图的单个bin运行，但只考虑一个俯仰。因此，这种模型无法估计桥梁或丢失货物(低物体)等物体的高度。对于一个俯仰，复杂度约为45 GFLOPS，但对于所有11个俯仰将增加到495 GLPOPS。我们已经证明了FFT-RadNet可以在不影响估计质量的情况下减少这些处理成本。

表4：复杂度分析。该方法在输入的大小、模型参数的数量和计算复杂度之间达到了最佳的平衡。注意，RA Pixor方法(*)的AoA处理只考虑单个俯仰，否则对于整个BE = 11的俯仰，它将高达496 GFLOPS。

7.结论

我们介绍了FFT-RadNet，一种新的可训练的架构来处理和分析高清雷达信号。我们演示了它有效地减少了估计RA或RAD表示所需的昂贵预处理。相反，它检测和估计对象的位置，同时从RD光谱直接分割自由驾驶空间。FFT-RadNet的性能略优于基于RA的方法，同时减少了处理需求。实验是在RADIal数据集上进行的，RADIal数据集是工作的一部分，包含汽车级传感器信号序列(高清雷达、相机和激光扫描仪)。同步传感器数据以原始格式提供，因此可以评估各种表示，并可以进行进一步的研究，可能采用基于融合的方法。

A.RADIal数据集细节

传感器规格。以RADIal数据集为中心，我们的高清雷达由NRx = 16个接收天线和NTx = 12个发射天线组成，总共NRx·NTx = 192个虚拟天线。这种虚拟天线阵列能够在估计物体仰角的同时达到较高的方位角分辨率。由于雷达信号很难被标注者和从业者标注，提供了一个16层汽车级激光扫描仪(LiDAR)和一个5 M像素 RGB相机。摄像头放置在挡风玻璃后的内镜下方，而雷达和激光雷达安装在前通风网格的中间，一个在另一个上面。三个传感器有平行的水平视线，指向驾驶方向。它们的外部参数与数据集一起提供。RADIal还提供同步GPS和CAN跟踪，提供访问的地理参考位置的车辆，以及其驾驶信息，如速度，方向盘角度和偏航率。传感器的规格详见表5。

表5：RADIal传感器套件规格说明。报告高清雷达、激光雷达和照相机的主要特点。由GPS和CAN信息补偿它们的同步信号。

RADIal数据集。RADIal包含91个片段，时长1到4分钟，总共2小时。这些序列分为高速公路、乡村和城市驾驶。序列的分布如图5所示。每个序列都包含原始传感器信号，记录了它们的本机帧速率。提供了一个Python库来读取和同步数据。大约有25000帧与三个传感器同步，其中8252帧标记共有9550辆汽车。

图5：RADIal中的场景类型比例。该数据集总共包含91个序列，在城市街道、高速公路或乡村道路上捕获，总共有25k个同步帧（深色），其中8252个被标记（浅色）。

B.MIMO预编码器的消融实验

MIMO预编码器的作用是去交错距离多普勒频谱，并将它们转换成一种紧凑的表示形式，通过学习，仍然允许预测方位角和反射器上的其他信息。MIMO预编码器的输入由复数NRx = 16个距离多普勒谱组成，每个Rx对应一个。实部和虚部被叠加，产生一个总大小为BR×BD×2NRx的输入张量，即512×256×32。消融研究包括评估FFT-RadNet探测头的性能，同时减少MIMO预编码器输出的特征量。最大输出通道数为具有复信号(实部和虚部)的虚拟天线数，即NTx·2·NRx = 384。我们将输出通道的数量从最小的24改变为这个最大值，并计算验证集上的检测性能。消融研究的结果见图6。我们用f1-score来衡量检测性能，经典定义为f1-score= AP·AR/AP+AR，这将平均精度(AP)和平均召回率(AR)聚集在一个单一指标中。我们观察到，在192个输出通道时达到了最佳性能，因此是最大输出大小的一半。这个压缩输出是从用于检测和分割任务的输入距离多普勒频谱中最多捕获距离和方位信息的输出。

图6：MIMO预编码器消融。预编码器的输出通道数量对内存占用和检测头性能的影响。

C.雷达激光对比

RADIal数据集设计用于从几种传感器技术收集信息。对于安全关键系统，如自动驾驶汽车，我们认为从传感层开始的系统各级的冗余是保证安全运行的关键。在一个完整的自动驾驶系统中，雷达与相机和激光雷达的结合将提高整体鲁棒性。事实上，即使在夜间，激光雷达也能提供物体在距离和角度上的精确3D定位，而相机则在光线充足的情况下提供关于场景的丰富语义和几何信息。然而，这两种类型的传感器遭受恶劣的天气条件，可以大大降低其性能。雷达在恶劣天气条件下更可靠，能提供精确的距离估计和物体的速度，特别适合汽车应用的成本和尺寸限制。

作为参考，我们在表6中分别报告了成像雷达(使用FFT-RadNet)和激光雷达传感器(使用Pixor)在径向上获得的性能。前者在AP中表现类似，而在AR中表现较后者低，但仍然很好。这已经是一个显著的结果，由于雷达技术的实际优势，我们在上面提到过。此外，这种性能差异可以用创建RADIal数据集的方式来解释。融合激光雷达三维信息的摄像机二维检测/分割，半自动获取地面真值。因此，评估可能倾向于处理激光雷达输入。

表6：单独高清雷达和单独激光雷达的车辆检测结果。在RADIal测试分集的平均精度(AP)和平均召回(AR)的性能。FFT-RadNet以距离-多普勒谱为输入，Pixor为LiDAR点云。

由于标注流程的性质，以及雷达的多路径反射，在RADIal中出现的许多城市或密集环境中的复杂场景序列没有被标注。在图7中，我们在使用高清雷达或激光雷达时，定性地比较了在这种复杂场景下的车辆检测。我们观察到，配备了FFT-RadNet的高清雷达，可以在复杂情况下检测车辆，包括超出第一排的车辆，在那里相机和激光雷达都没有很好的表现。

图7：在复杂场景中使用高清雷达或激光雷达进行车辆检测的例子。用激光雷达点云训练的Pixor(“Pixor LiDAR”列，绿色框)和我们提出的只需要距离多普勒作为输入的FFT-RadNet(“FFT-RadNet”，红色框)之间的比较。请注意，雷达探测不限于第一排车辆，但可以看到第二排的车辆。此外，FFT-RadNet通过多普勒测量提供车辆的相对速度。