水面自动驾驶？WaterScenes：首个水面4D Radar-Camera融合数据集-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/132486998

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

今天自动驾驶之心很荣幸邀请到西交利物浦大学的姚善良博士生来分享首个水面多任务4D Radar-Camera融合数据集—WaterScenes，水面自动驾驶就要来了！！！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心【多传感器融合】技术交流群

论文作者 | 姚善良

编辑 | 自动驾驶之心

大家好，我是姚善良，目前就读于西交利物浦大学，很荣幸受邀分享我们最近开源的世界首个水面多任务4D Radar-Camera融合数据集！下面我将详细展开介绍WaterScenes。

首个水面多任务 4D 毫米波雷达-摄像头融合数据集 WaterScenes，它提供来自多个传感器的数据，包括 4D 毫米波雷达、单目摄像头、GPS 和 IMU。可应用于六大感知任务。包括物体检测、实例分割、语义分割、可行驶区域分割、水岸线分割和全景感知。该项工作开辟了 4D 毫米波雷达和摄像头融合算法在水面自动驾驶的研究方向。实验结果表明，4D 毫米波雷达和摄像头融合可以提高水面感知的准确性和鲁棒性，在不利的光照和天气条件下提升尤其明显。WaterScenes 数据集在 https://waterscenes.github.io 上公开。

水面自动驾驶在执行危险和耗时的任务中发挥着重要作用，如海上巡检、幸存者救援、环境监测、水文测绘和垃圾清理。我们的工作提出了首个用于水面自动驾驶的多任务 4D 毫米波雷达-摄像头融合数据集 WaterScenes。我们的无人船配备了 4D 毫米波雷达和单目摄像头，提供了全天候的解决方案，可识别物体的相关信息，包括颜色、形状、纹理、距离、速度、方位角和俯仰角。我们聚焦于水面上典型的静态和动态物体，分别在像素级和点级对摄像头图像和雷达点云进行标注。除了物体检测、实例分割和语义分割等基本感知任务外，我们还为可行驶区域分割和水岸线分割提供了标注。利用 WaterScenes 的多任务和多模态数据，我们对雷达和摄像头的单模态以及融合模态进行了基准实验。实验结果表明，4D 毫米波雷达和摄像头融合可以大大提高水面感知的准确性和鲁棒性，尤其是在不利的光照和天气条件下。WaterScenes 数据集在 https://waterscenes.github.io 上公开。

背景介绍

近年来，自动驾驶技术发展迅速，在道路、天空和水面上实现了更安全、更高效和更可持续的运输。不同的应用场景为自动驾驶车辆提供了各自的前景和挑战。在水面上航行的无人船为各种任务提供了一个多功能、经济高效的解决方案，包括海岸监视、环境监测、河流建模、水下探测、河流救援和垃圾清理。

与路面自动驾驶相比，水面自动驾驶遇到的感知挑战更加艰巨和不可预测。风浪会严重影响无人船的稳定性，使其难以保持预期的航向和轨迹。无人船产生的振动会对传感器输出产生不利影响，导致从水面到天空的过渡模糊不清，甚至在视野中丢失物体。航行过程中溅起的水花或温差产生的水汽可能会干扰摄像头，导致图像不清晰。更加复杂的是，漂浮物（如落叶、水草）以及雨滴落在水面上造成的波纹都会对目标的识别造成干扰。水面的镜面反射也导致很难辨别水中镜像物体和岸边真实物体。不利的光照和天气条件严重影响了摄像头的可视性，进一步降低了图像的清晰度。这些多重因素给摄像头传感器带来了一系列挑战，使其难以检测和跟踪周围环境中的物体。虽然激光雷达可以帮助提高探测精度，但也容易受到恶劣天气条件的影响。此外，激光雷达在应用于水环境时还会受到波浪和水面反射的限制。

与摄像头和激光雷达不同，毫米波雷达发射的无线电波在物体上反射回传感器，可提供物体的距离、速度和方位角信息。毫米波雷达波能够以最小的衰减穿透恶劣的天气，使其能够透过雨、雾和雪来探测物体。毫米波雷达信号的波长较长，不易受到强烈阳光和黑暗等不利光照条件的干扰。此外，雷达传感器还能探测到远距离的物体，甚至墙后的障碍物，为车辆提供潜在障碍物或危险的预警。所有这些优势使毫米波雷达传感器成为自动驾驶车辆中可靠、坚固的部件，同样适用于克服水面上的挑战。不过，传统毫米波雷达的分辨率较低，而且缺乏关于探测到的物体的语义信息。在水面上使用时，它们会产生来自非金属目标的微弱回波，以及从水环境中返回的杂波。

因此，结合毫米波雷达和摄像头传感器优势的多模态传感器融合方法是克服这些挑战并全面了解水面感知的潜在解决方案。大量研究表明，毫米波雷达-摄像头融合可提高道路自动驾驶汽车模型的准确性和鲁棒性。然而，很少有研究关注水面上的毫米波雷达-摄像头融合，这主要是由于缺乏可用的多模态数据集。据我们所知，FloW 是唯一一个同时包含毫米波雷达和摄像头数据的水面数据集。然而，FloW 数据集只有一个名为 "塑料瓶"的类别，不适合实际场景中复杂的水面环境。

近年来，4D 毫米波雷达在更密集的雷达点云和更高的角度分辨率方面显示出其优势，可提供更丰富的目标信息。因此，它是无人船上一种潜在的感知传感器，可应对水面上的独特挑战，如水面反射、不利的光照和天气条件等。越来越多的4D 毫米波雷达-摄像头融合数据集（如 Astyx、K-Radar、VoD和 TJ4DRadSet）已出现在路面自动驾驶中，并被证明可有效提高探测精度。然而，迄今为止还没有公开的水面4D 毫米波雷达数据集，更不用说融合的 4D 毫米波雷达-摄像头数据集了。如图 1 所示，我们提出的数据集通过以下贡献填补了这一空白：

我们提出的 WaterScenes 是首个水面多任务 4D 毫米波雷达-摄像头融合数据集，它提供来自多个传感器的数据，包括 4D 毫米波雷达、单目摄像头、GPS 和 IMU。它可应用于六大感知任务，包括目标检测、实例分割、语义分割、可行驶区域分割、水岸线分割和全景感知。
我们的数据集涵盖了不同的时间条件（白天、黄昏、夜晚）、光照条件（正常、昏暗、强光）、天气条件（晴天、阴天、雨天、雪天）和水路条件（河流、湖泊、运河、护城河）。我们还提供了一个信息表格，用于检索不同条件下实验的具体数据。
我们为摄像头图像提供二维框级和像素级注释，为毫米波雷达点云提供三维点级注释。我们还为不同传感器的同步提供精确的时间戳，以及内在和外在参数。我们还为 WaterScenes 提供了一个工具包（https://github.com/WaterScenes/WaterScenes），其中包括预处理、标记、投影和可视化，帮助研究人员处理和分析我们的数据集。
我们建立了相应的基准，并对物体检测、点云分割、图像分割和全景感知等常用算法进行了评估。实验证明了毫米波雷达感知在水面上的优势，尤其是在不利的光照和天气条件下。

WaterScenes数据集

从图中可以直观地看出，我们的 WaterScenes 为各种水面场景下的自动驾驶提供了各种场景下的数据，毫米波雷达和摄像头可以互补地完成对水面环境的感知。

无人船搭建

我们用于数据收集的无人船配备了各种传感器，包括用于捕捉雷达点云的 4D 毫米波雷达、用于收集图像信息的单目摄像头、用于 360 度观察的网络摄像头、用于获取地理位置信息的 GPS 以及用于跟踪姿态和运动信息的 IMU。

数据统计

数据集包括 54120 组 RGB 图像、雷达点云、GPS 和 IMU 数据，涵盖 20 多万个水面目标。每个类别的具体帧数和对象数见表 III。此外，作为该数据集的重要组成部分，在不利照明和天气条件下拍摄的图像也计入表中。所有图像的大小均为 1920 × 1080，包含桥墩、浮标、船员、渡船、轮船、游船和皮划艇等多种目标。其中，浮标和桥墩是无人船行驶时应避开的水上明显障碍物，而轮船、渡船、游船和皮划艇则代表水面上遇到的常见水上交通工具，船员一词特指这些水上交通工具上的人。

我们根据物体的大小将其分类如下：面积大于192 × 192 像素的物体被视为大物体，面积小于 32 × 32 像素的物体被视为微型物体，面积介于 32 × 32 和 64 × 64 像素之间的物体被称为小物体，而面积在 64 × 64 至 192 × 192 像素之间的物体被归类为中型物体。图 4(a)显示的物体大小分布范围很广，这与通常在水面上观察到的不同大小的物体相一致。我们还利用雷达点云中的距离属性分析了距离分布。如图 4(b) 展示了每 20 米间隔的物体数量与距离之间的关系。

此外，我们还通过计算每个特定类别的平均属性值对雷达点云进行了综合分析。如表 IV 所示，点的数量与物体大小高度相关。其中，轮船和游船作为大型物体，点数最多，而船员和皮划艇作为小型物体，点数很少。桥墩、轮船、渡船和游船的反射功率相似，因为它们主要由水泥构成。浮标的功率值较高，因为它们由金属材料构成，而皮划艇由塑料材料构成，功率值较低。速度信息也有助于区分不同类型的物体。例如，桥墩和浮标等静止目标的速度最小，而轮船和游船的速度相对较高。总之，每个属性都代表了目标的不同特征，对于点云分类至关重要。

基准和讨论

在本节中，我们以 WaterScenes 为基准，评估了水面上多项任务的性能，包括目标检测、雷达点云分割、摄像头图像分割和全景感知。通过分析实验结果，我们讨论了 WaterScenes 为进一步研究带来的价值和挑战。

目标检测

对于基于融合的物体检测，我们对 YOLOX-M 和 YOLOv8-M 采用了早期融合方法。如图 5 所示，检测过程包含两种输入模式：从摄像头传感器获得的 RGB 图像和从 4D 雷达传感器获得的 REVP 图。具体来说，REVP 图捕捉了与图像帧相匹配的雷达点云中被探测物体的距离（R）、高度（E）、速度（V）和反射强度（P）的综合特征。在摄像头输入的骨干层中，我们利用 CSP 块来处理图像特征。另一方面，对于雷达输入，我们采用平均池化和可变形卷积来提取不规则雷达点云特征，然后利用 CSP 块进行进一步的前向传播。然后将两个分支的输出连接起来，生成融合特征。此外，为了在关注物体特征的同时减少雷达点云中杂波的负面影响，我们在特征融合阶段的最后添加了 shuffle attention 注意力机制。之后，我们按照 YOLOX 和 YOLOv8 的范式对backbone、neck和head进行了处理。

基准：表 VI 将目标检测基线分为两部分：基于摄像头的检测和基于融合的检测。在基于摄像头的检测中，YOLOv8-M 的 mAP50-95 最高，达到 59.2%，比 YOLOX-M 高 1.4%，比 Deformable DETR 高 2.7%。此外，值得注意的是，YOLOX-M 的 mAP50 为 85.1%，是所有检测器中最高的。在所有检测器中，CenterNet 的推理速度最快，达到了惊人的 117.4 FPS。此外，我们还评估了模型在具有挑战性的光照和天气条件下拍摄的图像上的性能。值得注意的是，在这种情况下，所有模型的准确度都有所下降，而 YOLOX- M 和 YOLOv8-M 仍然保持了最高的 mAP50。基于融合技术的 YOLOX-M 和 YOLOv8-M 的 mAP50-95 和 mAP50 均高于基于摄像头的 YOLOX-M 和 YOLOv8-M。具体来说，与基于摄像头的 YOLOv8-M 相比，基于融合的 YOLOv8-M 的 mAP50 从 84.4% 提高到 88.0%。在不利的光照和天气条件下，基于融合的模型也能提高精度。例如，在具有挑战性的照明条件下，基于融合的 YOLOv8-M 显示出显著的改进，mAP50 从 74.8% 提高到 80.1%，mAP50 显著提高了 5.3%。此外，为了提高雷达点云的密度，我们对累积的 3 帧雷达点云进行了实验。结果表明，无论是在正常条件下还是在不利的照明和天气条件下，更密集的雷达点云都有利于提高目标检测的 mAP。就 mAP50 而言，观察到的最高提升幅度为 7.3%。值得注意的是，YOLO 系列是主要针对图像模态的高效物体检测模型。尽管我们的融合网络只是对 YOLO 的简单操作，但毫米波雷达-摄像头融合方法的性能仍有显著提高。

讨论：图 6 显示了基于摄像头和基于融合的检测模型所获得的代表性结果。显然，4D 雷达丰富了特征，提高了对远处小型物体（图 6(a) 和图 6(d)）以及位于黑暗环境中的物体（图 6(b) 和图 6(e)）的召回率。此外，由于摄像头本身的不稳定性，特别是在镜头失效的情况下，如图 6(c) 所示，基于摄像头的 YOLOX-M 无法检测到渡船上的水手。如图 6（f）所示，基于融合的 YOLOX-M 成功地识别出了船员，从而提高了水面感知的鲁棒性。虽然基于融合的模型比基于摄像头的模型表现更好，但置信度得分相对较低，仍有一名船员未被检测到。如何根据不同模态的特征设计高效的融合方法，在水面上仍然是一个相当大的挑战。一方面，多模态融合的注意力机制可以应用于水面领域。例如，TransFusion 中的交叉注意模块能够自适应地确定应从摄像头和激光雷达数据中获取哪些信息，从而实现稳健有效的融合策略。另一方面，水面自动驾驶必须应对水面特有的挑战。通过利用弱光增强、去雨去雾等技术，可以提高来自不同模式的数据质量，并有助于获得更准确的融合结果。

全景感知

在我们的实验中，全景感知包括目标检测、可行驶区域分割和水岸线分割任务，涵盖了对水面环境的全方位感知。我们使用两个基于摄像头的网络（YOLOP 和 HybridNets）和一个基于融合的网络 Achelous 对 WaterScenes 上的全景感知性能进行了评估。YOLOP 和 HybridNets 包括一个用于特征提取的编码器和三个用于处理全景任务的解码器。Achelous 是一个专门用于水面的轻量级全景感知框架。在 Achelous 中，我们选择 MobileViT 作为骨干，而 Ghost Dual-FPN 作为颈部。此外，我们选择雷达卷积来提取雷达点云特征。我们还采用了基于同态不确定性的学习策略来辅助多任务学习。在训练阶段，探测头对端到端策略的早期收敛提出了挑战。因此，按照 YOLOP 和 HybridNets 的方法，我们首先对编码器和检测头进行100次训练。然后，我们冻结编码器和检测头，并对可行驶区域和水岸线分割头进行50次训练。最后，对整个网络进行50次包含所有三个任务的联合训练。

基准：从表 X 中可以看出，基准结果表明了我们的数据集在全景感知方面的可行性，以及与水面多任务感知相关的挑战。总体而言，与基于摄像头的 YOLOP 和 HybridNets 相比，基于融合的 Achelous 在物体检测、可行驶区域分割和水岸线分割任务中表现出更优越的性能。在物体检测方面，Achelous 的mAP50 比 HybridNets 高出15.7%，证明了毫米波雷达-摄像头融合在水面上的有效性。不过，它的检测 mAP 值仍然低于表 VI 中的 YOLOv8-M 模型，后者是专门为物体检测任务设计的毫米波雷达-摄像头融合模型。

讨论：全景感知对于无人船了解水面环境并做出准确决策至关重要。与道路上自动驾驶车辆的可行驶区域和车道线分割任务不同，水面上的反光和水与岸线之间的分界线不清晰使得准确分割可行驶区域和水岸线变得十分困难。例如，如图 9(a) 和 9(b) 所示，由光线和波浪造成的亮点区域无法正确识别为可行驶区域。如图 9(c) 所示，水面在夜间会反射出岸边的建筑物，使可行驶区域的分割更加复杂。如图 9(d) 所示，小物体与水面的接触面积较小，容易被忽略。此外，如图 9(e) 和 9(f) 所示，水面和岸线之间的分界模糊不清，尤其是在黑暗环境中，会导致误认为岸线是水面而丢失水岸线。水面上的多模态全景感知是一个尚未开发且非常有价值的研究方向。在多任务学习（Multi-Task Learning，MTL）范式中，多个特定任务的头共享特征提取过程。跨任务的共同训练策略可以利用特征抽象来节省板载芯片的计算成本。全景感知还可用于水面上的下游任务，如路径规划、避障和导航控制。因此，能够实时处理多种模态和多种任务的轻量级架构对于无人船上的边缘设备来说是迫切需要的。

总结

这项工作展示了一个开创性的多模态和多任务数据集，它揭示了以前未曾探索过的水面 4D 毫米波雷达-摄像头融合方向。借助毫米波雷达和摄像头传感器的互补优势，我们的 WaterScenes 数据集可实现水环境的多属性和全天候感知。通过评估摄像头图像、毫米波雷达点云、以及融合的算法在 WaterScenes 上的表现，我们获得了水面感知前瞻性发现。实验结果证明了该数据集的进一步研究价值，同时也表明 4D 毫米波雷达-摄像头组合是无人船在水面上的稳健解决方案。在不对 SOTA 模型进行优化的情况下，4D 毫米波雷达-摄像头融合可以提高探测性能，尤其是在不利的照明和天气条件下。总之，所介绍的 WaterScenes 为对水面自动驾驶感兴趣的研究人员提供了宝贵的资源，并旨在激发开发水面感知算法的新思路和新方向。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）