【论文阅读】 Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and...

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

💡摘要

在大量数据集上进行训练的大型基础模型的兴起正在彻底改变人工智能领域。 SAM、DALL-E2 和 GPT-4 等模型通过提取复杂的模式并在不同的任务中有效执行来展示其适应性,从而成为广泛的人工智能应用程序的有效构建模块。自动驾驶是人工智能应用领域的一个充满活力的前沿领域,但由于缺乏专用的视觉基础模型(VFM),仍然面临着挑战。综合训练数据的缺乏、多传感器集成的需求以及多样化的特定任务架构对该领域的 VFM 发展构成了重大障碍。本文深入探讨了专门为自动驾驶打造 VFM 的关键挑战,同时也概述了未来的方向。通过对 250 多篇论文的系统分析,我们剖析了 VFM 开发的基本技术,包括数据准备、预训练策略和下游任务适应。此外,我们还探索了 NeRF、扩散模型、3D 高斯分布和世界模型等关键进展,为未来的研究提供了全面的路线图。为了增强研究人员的能力,我们构建并维护了 Forge VFM4AD,这是一个开放访问存储库,不断更新自动驾驶锻造 VFM 的最新进展。

📉Introduction

自动驾驶(AD)技术的快速进步正在重塑交通格局,迎来人工智能驱动的未来。传统的自动驾驶感知系统依赖于模块化架构,利用专用算法来完成特定任务,例如物体检测 Lang 等人。 (2019);毛,薛,等。 (2021),语义分割 Y.Guo、Liu、Georgiou 和 Lew (2018); X.严等人。 (2022) 和深度估计 Ming、Meng、Fan 和 Yu (2021)。每个任务通常由一个单独的模型来处理,通常是在特定于任务的标签上训练的深度神经网络。然而,这些划分的组件优先考虑单个任务的性能,而牺牲了更广泛的上下文理解和数据关系。这种方法通常会导致输出不一致,并限制系统处理长尾案例的能力。

大规模基础模型,特别是自然语言处理 (NLP) 领域的模型 Brown 等人。 (2020); OpenAI(2023)已成为人工智能领域的一股强大力量。这些模型在庞大且多样化的数据集上进行训练,通常利用自我监督技术。经过培训后,它们可以通过微调进行调整,以使用一种模型来处理各种特定任务。最近,GPT-3/4 Brown 等人的十亿参数模型取得了成功。 (2020);零/少样本学习中的 OpenAI (2023) Ateia 和 Kruschwitz (2023);埃斯佩耶尔、埃蒂福里、阿拉桑、乔哈姆和达哈内 (2023); Y.梁等人。 (2023)尤其值得注意。它们出色的小样本学习能力使它们能够有效地处理具有分布外 AD 数据的场景,例如遇到不可预见的物体。此外,它们固有的推理能力使它们非常适合需要逻辑处理和明智决策的任务。

虽然大型基础模型确实给各个领域带来了革命性的变化,但它们对 AD 的影响并未达到预期。事实证明,直接将在其他领域的 2D 数据或文本模式上训练的现有视觉基础模型 (VFM) 应用于 AD 任务显然是不够的。这些模型缺乏利用对于 AD 感知任务(例如深度估计)至关重要的丰富 3D 信息的能力。此外,AD 架构的内在异构性和多传感器融合的必要性给 VFM 的直接适应带来了额外的挑战。由于 VFM 必须能够有效处理各种传感器数据(例如 LiDAR、摄像头、雷达)并无缝适应 AD 域内的各种下游任务,这一挑战进一步加剧。

在自动驾驶发展的背景下,阻碍视觉基础模型进步的关键因素有两个:

- 数据稀缺:由于隐私问题、安全法规以及捕获真实驾驶场景的复杂性,自动驾驶数据本质上是有限的。此外,自动驾驶数据必须满足严格的要求,包括多传感器对准(例如激光雷达、摄像头、雷达)和时间一致性。

- 任务异构性:自动驾驶呈现一系列不同的任务,每个任务都需要不同的输入形式(例如摄像头、激光雷达、雷达)和输出格式(例如 3D 边界框、车道线、深度图)。这种异构性给 VFM 带来了挑战,因为针对一项任务优化的架构通常在其他任务上表现不佳。因此,开发一个单一的、通用的架构和表示来有效地处理多传感器数据并在不同的下游任务中表现良好仍然是一个重大障碍。

尽管存在这些挑战,但有迹象表明,用于自动驾驶的大视觉基础模型的开发即将到来。通过持续收集,数据的可用性不断增加 Caesar 等人。 (2020);毛,牛,等人。 (2021) 和先进仿真技术的发展 X. Li 等人。 (2023); Z.杨等人。 (2023a)提供了解决数据稀缺问题的潜力。此外,感知方面的最新进展,特别是利用鸟瞰图 (BEV) Z. Li、Wang 等人的统一表示的转变。 (2022); Philion 和 Fidler (2020),以及 X. Tian, Jiang 等人的占用。 (2023),为缺乏通用表示和架构的问题提供了一个潜在的解决方案。

本文深入研究了支撑自动驾驶大视觉基础模型开发的关键技术,如图1所示。我们的探索首先是建立基础模型、现有框架和任务的全面背景,以及开发代表性,概述了我们在第 2 节中的核心动机。随后,我们在第二部分深入研究现有的数据集和数据模拟技术。 3,强调了生成对抗网络 (GAN)、神经辐射场 (NeRF)、扩散模型和 3D 高斯分布 (3DGS) 等技术在解决自动驾驶中固有的数据稀缺问题方面的关键作用。在此基础上,Sec。 4 分析了可用的自我训练技术,用于在未标记的真实数据上有效地训练 VFM。最后,为了弥合训练有素的 VFM 和下游任务之间的差距,Sec.图5探讨了其他领域开发的基础模型在AD领域的应用。我们研究了宝贵的经验教训和潜在的调整,以在自动驾驶的不同下游任务中实现有效的性能。

与 Firoozi 等人现有的调查论文相反。 (2023); Y. Huang、Chen 和 Li (2023); J.孙等人。 (2023); Z. Yang、Jia、Li 和 Yan(2023)涵盖了大型基础模型在各个领域的应用,本文提出了一种新颖的方法,重点关注开发专门为解决自动驾驶挑战而定制的大型视觉基础模型。这种独特的视角使我们能够更深入地研究构建能够推动该领域取得实质性进展的 VFM 所必需的基本原理和技术进步。

这项工作的主要贡献可概括如下:

- 我们采用统一的流程来开发自动驾驶的大型视觉基础模型(VFM)。该流程包括对数据准备、自我监督学习和适应的全面审查。

- 我们在提议的框架内系统地对每个流程中的现有作品进行分类,如图2所示。我们的分析在每个部分提供了细粒度的分类、深入的比较和总结的见解。

- 我们深入研究了锻造自动驾驶 VFM 时遇到的关键挑战。我们从 250 多篇调查论文中汲取见解,总结了关键方面并提出了未来的研究方向。

❓Background

本节首先介绍现有大型基础模型的概况,然后介绍自动驾驶感知中表示形式和常见任务的演变。

2.1 大型基础模型

基础模型是在大规模数据集上预先训练的。大型基础模型的格局正在迅速发展,多样化的架构不断突破机器智能的界限。

大型语言模型。 GPT-3 Brown 等人的大型语言模型 (LLM) 的出现。 (2020)带来了自然语言处理的一场革命。这些人工智能巨头从大量文本数据中进行训练,使它们能够以惊人的类人流畅度理解和生成语言。从文本完成和翻译到对话和问答,LLM展示了广泛的语言任务的专业知识。

在研究和培训方法进步的推动下,出现了一系列更加复杂的LLM。著名的例子包括 Chat-GPT 背后的驱动力 GPT-4 OpenAI (2023),以及 Bard 的核心 PaLM Chowdhery 等人 (2022)。此外,还有 LLa-MA/LLaMA2 Touvron、Lavril 等开源选项(2023); Touvron,Martin,et al.(2023) 获得了关注,提供了从 70 亿到 650 亿的参数数量。多语言支持也成为了一个突出的焦点,ChatGLM-6B Du et al.(2022)和GLM-130B A.Zeng et al.(2022)等模型展示了它们的多语言能力和微调潜力,从而扩大了它们的覆盖范围和适应性。

视觉基础模型。受到大型语言模型成功的启发,计算机视觉领域也采用了类似的有效模型。 VisionTransformers (ViTs) Dosovitskiy 等人。 (2020) 以相当的能力解决视觉任务。他们的 Transformer 架构在 LVD-142M Oquab 等人的大规模数据集上进行了训练。 (2023),擅长图像分类和分割等任务。 DINO Caronet al.(2021) 和 DINOv2 Oquab et al.(2023) 通过利用自我监督学习和知识提炼进一步增强了这些能力。使用 DINO 学习的特征包含有关场景布局和对象边界的明确信息。其他方法如 MAE Caron 等。 (2021),BEIT Caronet al.(2021),和 CAE Caron 等人。 (2021)采用掩模建模作为一种强大的自我监督学习技术,使他们能够学习一般的视觉表示。

最近,分段任意模型 (SAM) Kirillov 等人 (2023) 已成为对象分割领域的大师,能够熟练地为图像中的各个元素制作精确的掩模。它在包含 110 万张图像和 11 亿个掩模的庞大数据集上进行的训练赋予了它在无需任何显式微调的情况下泛化到不同分割任务的卓越能力,展示了卓越的零样本性能。

多模式基础模型。在计算机视觉领域,多模态视觉语言模型 (VLM),例如 CLIP Radford 等人。 (2021) 和 BLIP J. Li, Li, Xiong, and Hoi (2022) 是文本和视觉之间的重要桥梁。他们接受了来自互联网的大量图像文本对的训练,能够熟练地捕捉视觉和文本信息之间的复杂关系。这使他们能够在零样本图像分类和实例级对齐等任务中表现出色(例如 CLIP2 Y. Zeng 等人 (2023) 和 FILIP Yao 等人 (2021)),并且具有极高的准确性。

计算机视觉领域越来越多地探索组合不同预训练基础模型的力量。例如,SAMText H. He 等人。 (arXiv 预印本 arXiv:2305.01443)通过利用预先存在的检测器的信息,在检测到的文本周围自动生成像素级掩模,从而实现精确的文本分割。同样,Caption Anything T. Wang 等人。 (2023) 建立了一个通用的图像字幕框架,实现了视觉和文本方面的交互式操作。通过协同合并 SAM 和 ChatGPT,用户可以通过各种提示动态细化图像,包括直接指向或绘制边界框。此外,GPT-4V(ision) OpenAI (2023) 解锁了对用户提供的图像输入的更深入的理解和分析,展示了计算机视觉中多模态功能的演变

生成基础模型。 DALL-E 和 DALL-E2 Reddy、Basha、Hari 和 Penchalaiah (2021) 等视觉生成模型突破了创造力的界限。这些模型经过大量文本图像对数据集的训练,擅长根据文本描述从头开始生成令人惊叹的图像。最近出现的稳定扩散 Rombach、Blattmann、Lorenz、Esser 和 Ommer (2022) 引发了一股将基于扩散的图像生成与现有方法相结合的创造力浪潮。一个典型的例子是 Inpaint Anything T. Yu 等人。 (2023),无缝集成了 LaMa Suvorov 等人。 (2022) 和用于修复遮罩区域的稳定扩散。通过利用文本提示和这些强大的模型,用户可以无缝生成特定内容来填充或替换图像中的空白。同样,编辑一切 S. 高等人。 (2023) 展示了一个多功能生成系统,该系统利用了 SAM、CLIP 和稳定扩散的综合优势。这种融合使用户能够在视觉提示和文本提示的指导下以惊人的精度操作图像。

2.2 代表性的发展

本节全面概述自动驾驶感知中使用的关键表示,包括图像、点云、鸟瞰图 (BEV) 和占用网格。图 3 展示了一些典型的方法。

图像作为表示。利用RGB图像固有的丰富纹理信息,单目摄像头被应用于初级自动驾驶的感知任务中。这种固有的优势自然会促进一种简单的 2D 输出方法,其中这些图像作为基础表示,并相应地设计专用网络 Girshick、Donahue、Darrell 和 Malik(2014);劳和邓(2019); T.-Y。 Lin、Goyal、Girshick、He 和 Doll ar (2018);雷德蒙、迪夫瓦拉、吉尔希克和法哈迪 (2016);任、何、Girshick 和 Sun (2016)。然而,单目相机的固有局限性在于无法直接感知深度信息。为了获得 3D 结果,他们需要将 2D 输出转换为 3D 空间。以下作品 Z. Liu、Wu 和 T oth (2020); Z. Tian、Shen、Chen 和 He (2019); T. Wang、Zhu、Pang 和 Lin (2021) 通过首先根据提取的特征估计 2D 位置、方向和尺寸来应对这一挑战。随后,他们通过转换这些中间估计来承担 3D 任务。认识到这一局限性,研究人员越来越多地转向立体摄像系统,利用空间和时间线索的协同作用来丰富 3D 感知任务 P. Li、Chen 和 Shen (2019); Pon、Ku、Li 和 Waslander (2020);秦、王和陆 (2019)。

点云作为表示。 LiDAR 传感器凭借其卓越的深度传感能力和丰富的 3D 几何信息,超越了传统相机的能力,已成为自动驾驶的基石。

几项开创性研究已将点云确立为基于激光雷达的感知任务的基础表示。在这些方法中,有四种主流方法:基于点、基于体素、基于投影和基于混合的方法。基于点的方法 Q. Hu 等人。 (2020);齐、苏、莫和桂巴斯 (2017); X. Yan、Zheng、Li、Wang 和 Cui (2020) 优先考虑原始点云的原始几何形状,利用排列不变算子来捕获复杂的局部结构和细粒度模式,而不会通过量化影响数据保真度。基于体素的方法 Deng 等人。 (2021);朗等人。 (2019);马拉辛(2021); Y. Zhou 和 Tuzel (2017) 擅长将不规则点云转换为紧凑的 3D 网格,促进高效处理以及与传统卷积神经网络的集成。基于投影的方法 Kong 等人。 (2023); Liong、Nguyen、Widjaja、Sharma 和 Chong (2020); B. Wu、Zhou、Zhao、Yue 和 Keutzer(2019)采用高效的方法,将点云投影到 2D 像素(例如范围图像)上,以利用已建立的 2D-CNN 架构的强大功能。混合这些不同的方法提供了更有趣的可能性。基于混合的方法 S. Shi 等人。 (2020);唐等人。 (2020); J.徐等人。 (2021)寻求协同结合不同表示方案的优势,可能为新颖且更准确的感知模型打开大门。

此外,点云提供了有价值的中间表示,可促进物体检测和场景理解中的多传感器融合。值得注意的是,Vora、Lang、Helou 和 Beijbom(2020)等作品通过“特征绘画”将 2D 特征投影到点云上,从而丰富了感知的感知能力,展示了这种潜力。

鸟瞰图 (BEV)。 BEV 表示为自动驾驶感知任务提供了固有的优势。与透视图不同,BEV 提供无障碍的自顶向下视图,消除遮挡问题并减轻比例变化。这使得它非常适合后续模块,例如路径规划和控制,其中对象位置和关系至关重要。

LiDAR 的原生 3D 结构使其特别擅长生成 BEV 表示。基于 LiDAR 的方法可以轻松折叠点云特征的高度尺寸以获得 BEV 地图。基于相机的方法 H. Li, Sima, et al. (2023); Y. Li,Huang,等。 (2023); Y. Ma 等人。然而,(2023) 需要采取额外的步骤来弥合 2D 图像和 3D BEV 空间之间的差距。基于深度的提升 J. Huang、Huang、Zhu、Ye 和 Du (2022); Y.李等人。 (2022) 利用深度估计,同时基于查询提升 Z. Li, Wang 等人。 (2022); Y.刘、王、张和孙(2022); Z. Luo、Zhou、Zhang 和 Lu (2022) 利用特定查询从图像中提取相关特征并将其投影到 BEV 平面上。一旦获得统一的 BEV 特征表示,就可以通过专用的特定任务头或利用模态融合技术来处理下游任务 Z. Liu 等人。 (2023)。

场景作为占用。虽然 BEV 方法在场景理解领域占据主导地位,但占用感知代表了一种具有独特优势的新兴范例。与 BEV 的 2D 投影相反,占用感知使用 3D 体素网格直接对 3D 环境进行编码,从而能够精确检测关键垂直维度的障碍物。该功能可以稳健地处理桥梁、隧道和树枝等悬垂结构,这对 BEV 方法构成了重大挑战。此外,占用模型可以无缝集成语义信息和速度估计,从而更丰富、更准确地表示周围场景。

这个新兴领域的开创性工作使用 nuScenes 数据集 Caesar 等人引入了新的基准。 (2020)同期,如OpenOccupancy X. Wang等人。 (2023),OpenOcc Tong 等人。 (2023),SurroundOcc Wei 等人。 (2023) 和 Occ3D X. Tian, Jiang 等人。 (2023)。这些工作主要采用 BEV 感知的架构,并使用 3D 卷积构建额外的头部来进行占用预测。曹和德夏雷特 (2022) 的具体设计的后续作品; Gan、Mo、Xu 和 Yokoya (2023);苗等人。 (2023); Y.Zhang、Zhu 和 Du(2023)展示了占用感知的多种方法和广阔的潜力。

2.3 Vision Applications

强大而可靠的感知系统需要能够了解周围的驾驶环境,例如障碍物、交通标志以及车辆前方的自由驾驶区域。本节将深入研究各种下游任务,这些任务可以细化和调整预先训练的视觉模型,以实现这种关键的环境理解水平。

深度估计。深度估计的目标是从输入图像生成密集的深度图。这些方法可以大致分为两类:基于立体的和基于单眼的。立体方法 Laga、Jospin、Boussaid 和 Bennamoun(2020)利用两个重叠视点的三角测量,需要精确的相机校准。相反,单目方法 Alhashim 和 Wonka (2018); Eigen、Puhrsch 和 Fergus (2014); S. Lee、Rameau、Im 和 Kweon (2022) 通过单个图像估计深度,由于其更简单的设置和减少的校准要求而引起了越来越多的关注。

物体检测。对象检测旨在预测关键对象(例如汽车、骑自行车的人和行人)的位置、大小和类别。一般来说,目标检测可以分为 2D 目标检测 P. Jiang, Ergu, Liu, Cai, and Ma (2022); Ren、He、Girshick 和 Sun (2015) 以及 3D 物体检测 S. Shi、Wang 和 Li (2019); Y.周和图泽尔(2018)。前者专门获取图像上的二维边界框,而后者则需要了解物体与自我车辆的实际距离信息 Mao、Shi、Wang 和 Li (2023)。

地图构建。高清 (HD) 地图包含对道路元素的丰富语义理解,可作为自动驾驶中导航和路径规划的基本模块。构建高清地图的传统离线流程需要大量人力 K. Kim、Cho 和 Chung (2021); S. Wang、Zhu 和Zhang (2022)。最近,在线语义地图构建 S. Wang, Li, Liu, Liu, and Zhu (2023); Z.Zhang、Zhang、Ding、Jin 和 Yue (2023) 引起了越来越多的关注。利用摄像头、激光雷达或多传感器输入,这些方法可以生成有关道路布局的丰富信息。

语义分割。语义分割在自动驾驶中起着至关重要的作用,可以分为2D语义分割L.C.陈等人。 (2017); Mohan 和 Valada (2021) 以及 3D 语义分割 J.Zhang、Zhao、Chen 和 Lu (2019)。前者旨在为每个像素分配语义标签,而后者则为 3D 点云中的每个点分配语义标签。

对象跟踪。对象跟踪 Bras ́ o、Cetintas 和 Leal-Taix ́ e (2022); S.郭等人。 (2022) 的目标是随着时间的推移,持续估计周围环境中各个物体的位置和运动,为每个物体分配和维护唯一的 ID,以便通过外观和临时遮挡的变化实现一致的跟踪。

占用预测。最近,3D 占用预测引起了广泛关注,旨在联合估计图像中驾驶场景中每个体素的占用状态和语义标签 Z. Li 等人。 (2023); X.Tian,Jiang,等。 (2023)。与紧凑的 3D 边界框相比,占用表示在表示一般对象、背景和不规则形状的对象方面表现出色。

3 Data Preparation

在自动驾驶的背景下,考虑到确保人类安全涉及的高风险,确保处理复杂驾驶场景的鲁棒性至关重要。自动驾驶系统必须有效应对各种挑战,包括交通参与者、天气状况、照明和道路状况。然而,收集涵盖所有可能场景(例如与行人相关的意外交通事故)的数据集是不切实际且低效的。此外,由于数据分布的潜在差异,基于合成数据训练的模型可能难以有效地推广到现实场景。因此,问题的关键在于产生真实、可控的数据。令人鼓舞的是,最近的进展,特别是扩散模型和 NeRF 方面的进展,产生的图像模糊了真实图像和机器生成图像之间的界限,为解决数据稀缺问题提供了有前途的技术支持。

本节不仅深入探讨如何利用现有数据集,还探索以经济高效的方式收集、合成或增强自动驾驶数据的多种方法。这包括生成对抗网络、扩散模型、神经辐射场和 3D 高斯分布等技术。标签。图 2 概述了这些数据生成方法。

3.1 自动驾驶数据集

数据在训练自动驾驶感知模型方面发挥着关键作用,特别是在建立该领域的基础视觉模型方面。过去几十年来,自动驾驶技术的发展与数据集质量和丰富性的提高密切相关。标签。图 1 全面概述了 2009 年至 2024 年与自动驾驶感知任务相关的数据集,包括传感器配置、数据集多样性和支持的任务的详细信息。值得注意的是,数据集的多样性包括各种天气条件,反映了自动驾驶场景中遇到的现实挑战。该表主要关注广泛使用的自动驾驶数据集,省略了X. Tian、Jiang等人的注释扩展。 (2023)。如需对自动驾驶数据集进行更详尽的调查,请读者参阅 H. Li, Li 等人的文章。 (2023); M.刘等人。 (2024)。

自动驾驶数据集通常使用配备一系列传感器的车辆收集,包括摄像头、激光雷达、雷达、GPS、IMU 和 CAN 总线。每种传感器类型都有其自身的优点和缺点,需要将它们组合使用以全面捕获环境信息。这些传感器产生多种数据类型,例如 RGB 图像、点云、毫米波雷达数据、GPS 定位信息和自我车辆控制属性。

自动驾驶数据集的范围非常广泛,跨越学术和工业领域。虽然大多数数据集都具有 RGB 图像,但某些数据集(例如 Caltech Pedestrian Doll ́ ar 等)。 (2009),城市景观 Cordts 等人。 (2016) 和 IDD Varma 等人。 (2019)仅依靠摄像头进行数据收集。值得注意的是,这些数据集展示了不同的相机配置,从前视角度捕捉场景。 (2023);盖革等人。 (2012) 完整 360° 环绕视图 Caesar 等人。 (2020);毛,牛,等人。 (2021)。

LiDAR传感器以其捕捉高精度点云数据的能力而闻名,在自动驾驶数据集中广泛受到青睐,以确保安全,导致大多数数据集中都包含3D点云数据。相比之下,只有有限数量的数据集提供雷达数据 Caesar 等人。 (2020),尽管雷达具有速度测量能力和对不同天气条件的适应能力。这种稀缺性可能源于毫米波雷达数据的处理性质,由于其复杂的回波信号和重要的冗余信息,给深度学习带来了挑战。

除了真实世界的数据之外,还可以使用 Virtual KITTI Gaidon 等合成数据集。 (2016),虚拟 KITTI 2 Cabon 等。 (2020),以及最近的 UrbanSyn G ́ omez 等人。 (2023)提供了模拟不同天气条件的灵活性。然而,他们仍在努力应对领域差距挑战 Y. Li、Zhang、Keuper 和 Khoreva (2023)。

3.2 生成对抗网络

自 2014 年 Goodfellow 等人提出生成对抗网络(GAN)以来,它已经广受欢迎。 (2014)。 GAN 背后的想法非常简单直观,由两个网络组成:生成器和鉴别器。生成器的任务是生成尽可能与真实数据样本相似的样本,而鉴别器则试图将真实样本与生成的样本区分开来。通过像两人迷你最大游戏一样优化这两个网络,生成器能够合成逼真的图像。由于 GAN 的广泛普及,Lehner 等人已经确定了自动驾驶领域的应用不断增加。 (2023);乌里克·阿尔等人。 (2019)。在这里,我们主要关注 GAN 作为一种先进的数据增强技术,用于合成真实的驾驶场景数据集。

Pix2pix Isola、Zhu、Zhou 和 Efros (2017) 以及后续工作 pix2pixHD T.-C。王等人。 (2018) 提出了一种图像到图像的翻译 GAN,通过将语义图或边缘图像作为条件输入,实现自动驾驶图像的令人印象深刻的合成。考虑到在 pix2pix 中训练 GAN 时配对图像的强制性要求,J.-Y。 Zhu、Park、Isola 和 Efros(2017)提出了一种名为 CycleGAN 的不配对图像到图像翻译算法。因此,CycleGAN 展示了可能的数据增强的更高级示例,例如 CG 到真实、白天到夜晚、夏天到冬天的转换。作为图像到图像转换的自然扩展,视频到视频转换朝着生成时间一致的视频帧迈出了进一步的一步。例如,T.C. 中使用了时空对抗目标。王等人。 (2018) 合成长达 30 秒的 2k 分辨率街道场景视频。 DeepRoad M. 张等人。 (2018) 利用 GAN 生成各种天气条件下的驾驶场景。他们还使用这些生成的图像来测试基于 DNN 的自动驾驶系统在不同场景下的一致性。 DriveGAN S.W.金等人。 (2021) 推出了一种新颖的基于 GAN 的自动驾驶高质量神经模拟器,它实现了控制天气以及背景物体位置的能力。更重要的是,SufelGAN Z. Yang 等人。 (2020)提出了一种简单而有效的数据驱动方法来生成驾驶场景,支持重建真实的相机图像,以实现自动驾驶车辆和场景中移动物体的新位置和方向。

除了图像合成之外,GAN 还可以用于生成逼真的 LiDAR 点云。作为一项开创性工作,Caccia、Van Hoof、Courville 和 Pineau(2019)提出了一种基于 GAN 的方法,可以生成高质量的激光雷达扫描,并捕获真实激光雷达扫描的局部和全局特征。 LiDARGAN Sallab 等人。 (2019) 使用 CycleGAN 从模拟 LiDAR (sim2real) 生成真实的 LiDAR,以及从较低分辨率的 LiDAR (real2real) 生成高分辨率、真实的 LiDAR。随后,J. Lee、Shiotsuka、Nishimori、Nakao 和 Kamijo (2022) 提出了一种基于 GAN 的 LiDAR 到 LiDAR 转换方法,允许在各种恶劣天气条件下模拟点云数据。

虽然基于 GAN 的方法可以生成逼真的图像和 LiDAR 数据,但它们通常受到分辨率相对较低的限制。此外,解决生成具有多传感器一致性的数据的挑战对 GAN 方法来说是一个重大障碍。

3.3 Diffusion Models

扩散模型 Dhariwal 和 Nichol(2021)在图像合成方面取得了显着的成功,在某些方面超越了 GAN 的性能。一个关键优势在于他们在噪声图像上使用了大规模分类器训练。从这个过程中提取的梯度引导扩散采样朝向特定的类别标签,同时保持图像保真度和多样性之间的微妙平衡。典型的基于扩散的数据生成方法流程如图 4 所示。随着这些早期工作的顺利进行,后续有关条件多帧或多视图数据生成的工作呈爆炸式增长。

MCVD Voleti 等人。 (2022)利用基于概率条件得分的去噪扩散模型,该模型基于以滑动窗口块自回归方式屏蔽过去和/或未来的帧。掩模条件方法在 Align your Latents Blattmann 等人中也有类似的使用。 (2023)另外插入了时间层,以强制模型在视频生成器中以时间一致的方式对齐图像。 FDM 哈维等人。 (2022)可以通过元学习灵活地以任意数量的帧为条件。除此之外,还探索了一种时间注意力机制,包括用于生成长视频的位置编码网络。除了上述作品外,GeoDiffusion K. Chen 等人。 (2023)将各种几何信息(包括多视图和边界框平移)视为架构中的提示构造。对于单帧数据增强,DatasetDM W. Wu 等人。 (2023) 准备了一个带有少量标记图像的可训练解码器。此外,它还引入了一个大型语言模型,可以提示为各种下游任务生成高质量和无限数量的合成数据。

随着鸟瞰图(BEV)和占用感知成为自动驾驶感知的主要方法,在上述条件下生成多视图图像序列变得越来越重要。 DriveDreamer X. Wang 等人(2023) 采用两阶段训练流程。初始阶段侧重于理解交通结构信息,而后续的视频预测训练则增强预测能力。这种方法能够可控地生成严格遵守交通限制的驾驶场景视频。 Drive-WM Y. Wang 等人。 (2023) 引入多视图和时间建模来联合生成多个视图和帧。它通过联合建模分解来预测以相邻视图为条件的中间视图,从而提高视图之间的一致性。 DrivingDiffusion X. Li 等人(2023)包括多视图单帧图像生成模型、单视图时间模型和后处理模块,可增强跨视图和跨帧一致性,同时扩展视频长度。与此同时,MagicDrive R. Gau 等人。 (2023) 作为单一模型,使用多个 3D 几何控件生成街景多个摄像机图像。此外,它还包含一个跨视图注意模块,以确保多个摄像机视图之间的一致性。

虽然基于扩散的数据生成方法越来越受到关注,但它们从头开始训练具有挑战性,并且严重依赖于预训练的稳定扩散模型。此外,它们缺乏重建 3D 几何形状的能力。

3.4 神经辐射场

虽然使用 GAN 或扩散的图像到图像转换方法可以合成逼真的街道场景,但由于缺乏 3D 约束,它们很难生成新颖的场景视图。因此,神经辐射场 (NeRF) Mildenhall 等人。 (2021)已成为一个有前途的解决方案。 NeRF 于 2020 年首次由加州大学伯克利分校的研究人员推出,它不同于传统的 3D 重建技术,传统的 3D 重建技术使用点云、网格和体素等显式表达式来表示场景。相反,NeRF 对每条光线进行采样,捕获每个采样点的 3D 位置和光线的 2D 观察方向。然后将这些 5D 矢量值输入到神经网络中,以确定每个采样点的颜色和体积密度。 NeRF构建了一个由多层感知器(MLP)神经网络参数化的场,不断优化参数并重建场景,从而实现高质量的新颖视图合成。随后,一系列的努力将NeRF概念应用于大规模场景,例如NeRF++ K.Zhang, Riegler, Snavely, and Koltun (2020),NeRF in the Wild Martin-Brualla等人。 (2021),Mip-NeRF Barron 等人。 (2021)等。此外,正如 Y. Zhou、Wu 等人的作品所证明的那样,我们还努力从一些输入视图中训练 NeRF。 (2023)、PixelNeRF A. Yu、Ye、Tancik 和 Kanazawa (2021) 以及幕后 Wimbauer、Yang、Rupprecht 和 Cremers (2023)。

这些工作启发了多种方法,利用 NeRF 来模拟自动驾驶场景。例如,Z. Li 等人。 (2023) 介绍了 READ,一种用于自动驾驶的大规模神经场景渲染方法。 READ不仅可以合成真实的驾驶场景,还可以利用神经描述符方便地拼接和编辑驾驶场景。该方法能够从不同角度合成不同的驾驶场景数据,甚至对于涉及交通紧急情况的场景也是如此。此外,考虑到从驾驶场景收集的图像通常沿着驾驶轨迹表现出相似性,这可能会导致不令人满意的结果,特别是当相机姿势位于轨迹外时,MapNeRF C. Wu 等人。 (2023)通过在采样计算中纳入地图先验(例如地面和车道信息)来解决这一挑战。这种结合指导了辐射场训练,最终增强了轨迹外驾驶视图合成的语义一致性。 UniSim Z. Yang 等人(2023a) 利用驾驶汽车最初记录的传感器数据来创建可操作的数字双胞胎。核心概念涉及构建一个准确建模 3D 世界的组合场景表示,包括动态演员和静态场景,如图 5 所示。经过训练,UniSim 展示了从新视点生成逼真、时间一致的 LiDAR 和相机数据的能力,方便同时添加或删除参与者。 MARS(ModulAr 和现实模拟器)Z. Wu 等人。 (2023) 是另一个神经传感器模拟器,旨在建立一个开源模块化框架,用于基于 NeRF 的逼真自动驾驶模拟。此外,S-NeRF Z. Xie、Zhang、Li、Zhang 和Zhang (2023)、RoMe Mei 等人的最新进展。 (2023) 和 StreetSurf J.Guo 等人。 (2023)也被开发用于大规模驾驶场景的重建和模拟。这些方法展示了新颖的多视图合成和场景编辑的巨大潜力。

除了图像合成之外,某些方法还致力于使用 NeRF 模拟真实的 LiDAR 点云。 LiDAR-NeRF 陶等人。 (2023) 利用 NeRF 实现几何和 3D 点属性的联合学习,避免通过显式 3D 重建或游戏引擎模拟生成精确且规则的 LiDAR 图案。同时,NeRF-LiDAR J.Zhang 等人。 (2023) 利用自动驾驶汽车收集的真实图像和点云数据来学习 3D 场景表示、点云生成和标签渲染。生成的数据擅长增强大量真实 LiDAR 数据的生成,用于自动驾驶训练模型。

NeRF 已成为一种引人注目的多传感器一致模拟方法,能够生成可以从不同视角和不同光照条件下渲染的逼真场景。然而,NeRF 目前的瓶颈在于生成高分辨率数据同时满足实时处理要求的挑战。

3.5 3D Gaussian Splatting

最近,人们越来越关注基于 3D 高斯分布 (3DGS) 的方法 Kerbl、Kopanas、Leimk ̈ uhler 和 Drettakis (2023),这些方法引起了越来越多的关注。通过 3DGS,可以使用 3D 高斯基元来表示场景,从而通过基于光栅化的渲染以最小的内存成本实现实时渲染。

人们提出了许多方法来重建驾驶场景。 PVG Y. Chen 等人。 (2023) 引入了用于大规模动态驾驶场景重建的周期性振动高斯。通过将周期性振动、随时间变化的不透明度衰减和基于场景流的时间平滑机制集成到 3D 高斯泼溅技术中,PVG 不仅在高质量动态场景重建和新颖视图合成方面,而且在训练方面都表现出了优于基于 NeRF 的方法和推理速度。同时,如图6所示,DrivingGaussianX。周等人。 (2023) 使用来自多个传感器的顺序数据对复杂的驾驶场景进行分层建模。采用增量静态 3D 高斯和复合动态高斯图模块分别重建静态背景和多个动态对象。与 PVG 相比,DrivingGaussian 通过将任意动态对象插入到重建的高斯场中,同时保持时间相干性,支持现实驾驶场景中的极端情况模拟。此外,Y. Yan 等人。 (2024) 提出了一种新颖的街道高斯方法以及跟踪姿态优化策略和 4D 球谐函数外观模型来处理移动车辆的动力学。他们还证明,所提出的方法可以轻松合成目标车辆和背景,从而在训练后半小时内实现场景编辑和实时渲染。

3D Gaussian Splatting 可提高训练速度并能够生成高分辨率图像。尽管如此,值得注意的是 3DGS 目前缺乏全面的 3D 场景表示能力,从而为未来的研究提供了潜在的途径。

4. Self-supervised Training

在获取大量真实数据后,有效的预训练范例对于从海量数据集中提取一般信息和构建视觉基础模型至关重要。

自监督学习涉及对大量未标记数据进行训练,已在自然语言处理和特定图像处理应用等各个领域展现出前景。此外,它为自动驾驶VFM的发展带来了新的前景。如表所示。 3、我们对构建自动驾驶 VFM 的自我训练范式进行了全面的调查,涵盖了自监督或无监督方式的所有努力。这些方法分为五种主要类型,包括基于对比、基于重建、基于蒸馏、基于渲染和基于世界模型。

4.1 对比学习

对比学习,以 MoCo K. He, Fan, Wu, Xie, and Girshick (2020) 和 MoCov2 X. Chen, Fan, Girshick, and He (2020) 等方法为例,已成为学习图像表示的强大工具区分同一图像的增强版本之间的相似性。这种方法在 2D 领域取得了巨大的成功,其潜力激发了研究人员探索其在自动驾驶中的应用。

场景级方法。 PointContrast S. Xie 等人的开创性作品。 (2020) 和 DepthContrast Z.Zhang、Girdhar、Joulin 和 Misra (2021) 利用基于视图的 3D 点云对比学习,对齐两个增强点云的特征,如图 7 所示。主要关注室内感知,由于静态局部视图设置的限制而缺乏语义信息。为了解决这些局限性,后续研究,例如 GCC3D H. Liang 等人。 (2021)提出了一种自我监督学习框架,集成了几何感知对比和聚类协调。通过结合空间上接近的体素往往具有相似的局部几何结构的先验知识,GCC-3D 利用几何距离来指导体素特征学习,缓解硬标记策略中固有的“类冲突”问题。此外,Z. Li、Chen 等人。 (2022) 介绍了 SimIPU,这是一种专为户外多模态数据集设计的新型预训练方法。该方法利用由模内空间感知组件和模间特征交互模块组成的多模态对比学习管道,从而能够学习空间感知视觉表示。 ADPT 袁 等人。 (2023)将点云预训练视为半监督学习问题,有效利用少量标记的点云数据和大量未标记的点云数据来生成统一的骨干表示。这种方法将预训练过程和下游微调任务解耦,使其直接适用于许多基线模型和基准测试。

区域级方法。场景级对比学习方法虽然可以有效捕获全局上下文,但可能会导致关键局部细节的丢失。为了解决这些限制,基于区域的方法提供了令人信服的折衷方案。它们在全局和局部上下文之间取得了平衡,使其特别适合各种户外自动驾驶场景中的 3D 对象检测和语义分割任务。为了进一步增强下游语义分割任务的性能,SegContrast 预训练 Nunes 等人。 (2022) 从点云中提取与类别无关的片段。然后,使用这些片段来计算增强对上的分段对比损失,从而促进对准确分割至关重要的上下文信息的学习。对于 3D 物体检测,Yin 等人。 (2022) 提出了 ProposalContrast,一种新颖的两阶段提案级自监督学习框架。该框架利用区域提议作为学习单元,使网络能够学习专门为对象检测任务定制的信息表示。 BEVContrast Sautier 等人没有依赖计算成本高昂的分割或点表示池的提议方法。 (2024) 采用了一种更有效的方法:将特征投影到鸟瞰 (BEV) 平面上,并将它们局部池化在 2D 网格单元内。

4.2 再建

基于重建的预训练已成为自动驾驶 3D 感知领域的主导力量,包括基于摄像头和点云的方法。该范例利用自监督学习方法,通过从屏蔽或损坏的表示中重建输入数据来预训练感知模型,如图 8 所示。

基于相机的重建。对于基于相机的感知模型,利用掩码自动编码器(MAE)的方法已经取得了重大进展。值得注意的是,MAE K. He 等人。 (2021),SimMIM Z. Xie 等人。 (2022),MCMAE P. 高等人。 (2022)、MixMAE J. Liu、Huang、Zheng、Liu 和 Li (2023) 以及 SparK K. Tian 等人。 (2023)通过重建掩模图像块实现了令人印象深刻的泛化能力。这些方法学习重建屏蔽区域,有效地编码底层图像模式和各种场景组件之间的关系。 GeoMIM J. Liu、Wang 等人。 (2023),率先将基于摄像头的MAE预训练方法引入自动驾驶,充分利用了预训练bev模型编码的激光雷达bev特征。具体来说,激光雷达 bev 特征仅在训练阶段使用,而不在推理时间使用,这似乎是一种提高几何感知能力的蒸馏策略。

基于点云的重建。基于点云的感知模型也从基于重建的预训练中受益匪浅。 PointMAE Pang 等人。 (2022) 采用一组到一组的倒角距离损失来恢复遮罩点,确保准确的重建,同时保留底层的 3D 几何形状。 VoxelMAE Min 等人。 (2022)采用了不同的方法,重点是通过区分占用的体素来恢复底层几何形状。 GeoMAE X. Tian、Ran、Wang 和 Zhu (2023) 引入了额外的质心、法线和曲率预测任务作为前缀任务来捕获点云的几何信息。或者,MaskPoint H. Liu、Cai 和 Lee (2022) 通过占用点的二元分类来预训练点云编码器。在基于重建的预训练的基础上,Krispel 等人。 (2024) 提出了 MAELi(用于 LiDAR 的掩模自动编码器)。这种创新方法通过区分空体素和非空体素来利用 LiDAR 数据固有的稀疏性。此外,它采用了一种新颖的掩蔽策略,专门适应激光雷达传感器独特的球形投影特性,从而实现有效的重建和表示学习。为了解决遮挡几何的挑战,H. Yang, He 等人。 (2023) 引入了 GD-MAE(基于生成解码器的掩码自动编码器)。该方法采用生成解码器,以分层方式自动合并来自周围环境的信息,有效地恢复被遮挡的几何知识并增强场景的整体表示。此外,BEV-MAE Z. Lin 和 Wang (2022) 引入了鸟瞰 (BEV) 策略来指导 3D 编码器从 BEV 角度学习特征表示,从而简化了预训练过程。随着 3D 占用预测的进步,OccupancyMAE Min 等人的方法。 (2023a),还有 Boulch 等人。 (2023) 和 SPOT X. Yan 等人。 (2023) 已经出现,重点关注通过 3D 占用重建来预训练点云主干。

多模式重建。构建感知模型以从多样化的多模式数据中学习仍然是一个开放的挑战。 PiMAE A. Chen 等人(2023) 引入了一种自监督预训练框架,可促进掩模标记中的 3D 和 2D 交互,这可以大幅提高 2D 和 3D 检测器的性能。然而,目前的工作采用多阶段预训练系统,复杂的流程可能会增加预训练的不确定性和不稳定性。 M3I苏等人。 (2022)提出了一个通用的多模态互信息公式作为统一的优化目标,并证明所有现有方法都是我们框架的特例。这种方法在各种视觉任务上比以前的预训练方法取得了更好的性能,包括分类、目标检测和语义分割。 M3AE 耿等人。 (2022)通过屏蔽标记预测学习视觉和语言数据的统一编码器,以学习能够很好地转移到下游任务的通用表示。

4.3 蒸馏

基于蒸馏的预训练利用从受过培训的教师骨干收集的知识来提高学生同行 Gou、Yu、Maybank 和 Tao(2021)的表现,如图 9 所示。例如,一些方法利用了图像的优势基于激光雷达的感知,其中存在丰富的数据和已建立的模型,以提高基于激光雷达的感知模型的性能,这些模型通常受到数据有限和复杂表示的影响。

SLidR Sautier 等人。 (2022) 和 S2M2-SSD 郑等人。 (2022) 以其框架开创了这一领域。他们独立提出了 2D 到 3D 和融合到 3D 表示蒸馏方法,用于大规模点云上的跨模态自监督学习。这些工作展示了蒸馏在 LiDAR 预训练方面的巨大潜力,实现了显着的性能改进。随后的研究进一步完善和增强了 SLidR 流程。例如,Mahmoud 等人的工作。 (2023)引入了语义容忍对比约束和类平衡损失,从而进一步提高性能。最近,SEAL Y. Liu 等人。 (2023) 建立在 SLidR 的基础上,并建议利用视觉基础模型 SAM Kirillov 等人。 (2023)建立跨模式对比目标。这种方法利用 VFM 学习到的强大表示来解决 LiDAR 预训练的跨模式表示学习这一具有挑战性的任务。

这些进步凸显了基于蒸馏的预训练在提高激光雷达感知模型性能方面的有效性。通过利用预训练图像网络的知识,研究人员在处理与 LiDAR 数据相关的下游任务方面取得了重大进展,为 VFM 自动驾驶系统铺平了道路。

4.4 Volume Rendering

最近的进展已经出现了基于渲染的自动驾驶感知自我训练方法。这些方法首先将从点云或多视图图像中提取的视觉特征映射到统一的体积空间中。这允许合并相机的内部和外部参数,从而促进每个视图图像中每个像素的相应光线的计算。随后,MLP 用于预测沿每条射线采样点的符号距离函数 (SDF) 和 RGB 值,从而实现可微分体积渲染以重建深度图和图像(详细信息见图 10)。

预训练渲染。在这些开创性的努力中,Ponder D. Huang 等人。 (2023)是同类中的第一个,为这个新兴领域奠定了基础。然而,其适用性目前仅限于室内环境。作为回应,H. Zhu 等人提出了一个高级版本。 (2023) 已被提出,通过稀疏体素表示扩展架构以涵盖户外自动驾驶任务,包括对象检测和语义分割。 PRED H.杨等人。 (2023) 进一步利用这些技术进行基于 LiDAR 的主干预训练。值得注意的是,它结合了预训练的语义分割模型来为渲染结果生成伪标签,进一步增强了预训练的有效性。最近,UniPAD H. Yang、Zhang 等人。 (2023)提供了一个统一的框架,能够接受多视图图像和点云作为输入。该框架利用掩码生成器来部分掩码多模态输入,使网络在学习过程中能够专注于相关信息。

自我监督入住。除了预训练感知主干之外,基于渲染的方法也被探索作为监督占用预测任务的补充方法。 RenderOcc M. Pan 等人(2023) 是第一个提出一种仅依赖于 2D 监督(深度和语义图)的占用预测方法的人。该方法涉及跨多个帧生成 3D 射线、通过移动动态对象选择射线并采用类平衡采样,并最终渲染深度和语义图以进行监督。 SelfOcc Y. Huang、Zheng、Zhang、Zhou 和 Lu (2023) 是一项并行工作,采用了类似的训练范式。然而,它结合了额外的 RGB 监督,并利用了预训练网络生成的伪深度和语义基本事实。最近,OccNeRF C.Zhang 等人。 (2023)引入了时间光度一致性损失来监督渲染的深度,从而消除了深度监督的需要。

这些基于渲染的方法已成为自动驾驶中 VFM 开发的强大工具。这些方法具有利用大量 2D 标签进行 3D 感知的优势。

4.5 世界模型

世界模型是人工智能中一个长期存在的概念,它通常被定义为根据行动和过去的观察来预测未来状态 Ha 和 Schmidhuber (n.d.)。由于能够让智能体推理周围的世界、预测未来状态并做出明智的决策,而无需与真实环境进行一致的交互,因此它们在机器人领域取得了成功的应用,从模拟环境哈夫纳, Pasukonis、Ba 和 Lillicrap (2023);施里特威瑟等人。 (2020) 到现实世界场景 Reed 等人。 (2022); P. Wu、Escontrela、Hafner、Abbeel 和 Goldberg (2023)。

对于自动驾驶任务,自动驾驶车辆在动态变化的场景中行驶,这要求车辆掌握环境如何演变的知识。因此,自动驾驶的世界模型近年来受到了广泛关注。 (2023);贾等人。 (2023),因为它们有潜力为端到端自动驾驶铺平道路 Y. Hu 等人。 (2023); B.江等人。 (2022)。从另一个角度来看,自动驾驶世界模型的尝试也引入了一种有前景的训练范式,为自动驾驶打造视觉基础模型。具体来说,世界模型通常以自我监督的方式进行训练,可以在大规模未标记数据中进行优化。此外,通过学习世界的普遍表征,智能体可以更轻松地适应新的任务和挑战。为此,在本节中,我们主要探讨与自动驾驶世界模型相关的工作,特别是为表示和优化世界模型而设计的方法。现有世界模型的比较如表 1 所示。 4.

基于图像的世界模型。 GAIA-1 A. Hu 等人。 (2023) 提出了一种自动驾驶的生成世界模型,它将视频、文本和动作作为输入,将它们编码为一系列标记。然后,GAIA-1 中的世界模型被设计为一个自回归变换器,它根据所有过去的编码标记来预测下一个图像标记。最后,他们利用 Ho 等人的视频扩散模型。 (n.d.)作为解码器将预测的图像标记映射回像素空间,大大提高了输出视频的时间一致性。

尽管在构建自动驾驶的世界模型方面做出了开创性的尝试,但GAIA-1更像是驾驶场景的生成器,而忽略了控制信号预测。因此,ADriver-I Jia 等人。 (2023)首次提出了无限驾驶的概念,通过统一控制信号预测和未来场景生成。给定历史视觉动作对和当前视觉标记作为输入,ADriver-I 可以直接输出低级控制信号和近期帧。具体来说,多模态大语言模型(MLLM)Chiang 等人。 (2023);雷德福等人。 (2021)根据输入推理出当前帧的控制信号。之后,用作提示的预测控制信号与输入标记一起被馈送到视频扩散模型(VDM)Rombach 等人。 (2022)来预测未来的框架。 DriveDreamer X. Wang 等人提出的两阶段方法。 (2023)首先学会理解底层的交通结构,有效地构建场景的心理地图。在第二阶段,它利用这些知识来预测未来的视频帧,从而实现严格遵守交通规则和法规的可控驾驶场景的生成。 Drive-WM Y. Wang 等人。 (2023)通过联合建模多个未来视图和帧来解决多视图和时间一致性的挑战。然后,它利用联合模型的分解,通过以相邻视图为条件来预测中间视图。该技术显着提高了生成视图之间的视觉一致性,从而产生更加真实可信的驾驶场景视频。

3D 世界模型。 OccWorld郑等人。 (2023) 是一个世界模型,预测 3D 占用空间中自我汽车的运动以及周围场景的演变。它首先采用 VQVAE 来细化高级概念并以自我监督的方式获取离散场景标记。然后定制生成预训练变压器(GPT)架构,并提出一个时空生成变压器来预测后续场景标记和自我标记,以预测未来的占用和自我轨迹。 L.Zhang 等人提出了一种世界建模方法。 (2023) 由 AD 初创公司 Waabi(表中的 Waabi-WM)提出,它使用 VQVAE 对传感器观测进行标记,然后通过离散扩散预测未来,如图 34 所示。为了高效地并行解码和去噪标记,Masked Generative Image Transformer (MaskGIT) 被重新表述为离散扩散框架,并进行了一些细微的更改。尽管上述工作使用单模态传感器数据作为输入,MUVO Bogdoll 等人。 (2023) 通过利用原始相机和激光雷达数据来学习世界的几何 VOxel 表示。它可以根据动作预测未来多个步骤的原始摄像头和激光雷达数据以及 3D 占用表示。

预训练世界模型。 UniWorld Min 等人。 (2023b)通过利用大量未标记的图像-LiDAR 对,采用了一种新颖的预训练方法。它不依赖标签,而是利用多视图图像作为输入,在统一的鸟瞰 (BEV) 空间中生成特征图。然后,使用该 BEV 表示通过世界模型头来预测未来帧的占用情况。即使没有明确的标签,学习到的 BEV 特征也可以转移到其他下游任务并使其受益。 ViDAR Z. Yang 等人(2023b) 专注于根据过去的视觉信息预测未来的点云,如图 11 所示。它首先使用编码器网络将历史帧编码为嵌入向量。然后,通过独特的潜在渲染算子将这些嵌入投影到 3D 几何空间中,从而能够预测未来的点云。这种方法在超过八个下游任务(例如,3D 对象检测、语义分割、占用预测、对象跟踪和未来点云预测)上显示出显着的性能改进,凸显了世界模型预训练针对各种视觉任务的潜力。

5 Adaptation

虽然目前缺乏适合自动驾驶的定制视觉基础模型是一个挑战,但可以分析现有基础模型的应用,例如视觉基础模型、多模态基础模型和其他领域的大语言模型,以增强我们的理解。标签。图 5 清晰地总结了一些著名模型。通过检查现有解决方案的局限性,我们提取了关键见解,并提出了专为自动驾驶定制的专用视觉基础模型。

5.1 Vision Foundation Model

社区热情地接受了视觉基础模型(例如 SAM 和 DINO),引发了一波探索其潜力的研究浪潮。扩展深入研究了多种应用,例如图像修复 T. Yu 等人。 (2023),图像说明 T. Wang 等人。 (2023),视频对象跟踪 J. Yang 等人。 (2023) 和医学图像分析 Y. Huang, Yang 等人。 (2023); J. Ma 和 Wang (2023)。 C. Chen 等人的后续研究扩展到 2D 之外。 (2023);沉、杨和王(2023); Y.杨、吴、何、赵和刘(2023); D.张等人。 (2023); Y.周,蔡,等。 (2023) 在 3D 分析任务中利用这些 VFM 的能力。

最近的几项工作探索了使现有 VFM 适应各种自动驾驶挑战的潜力,寻求在这个新领域利用现有的视觉基础模型。具体来说,Calib-Anything Z利用SAM设计了一种激光雷达相机校准方法,该方法不需要额外的训练并适应常见场景。单等人。 (2023) 研究了 SAM 在恶劣天气条件下的分段鲁棒性。 SPINO K ̈ appeler 等人。 (2023) 利用从 DINOv2 Oquab 等人提取的与任务无关的图像特征。 (2023)以实现少镜头全景分割。它通过成功地将其应用于不同的 AD 数据集来展示其通用性。

此外,VFM 还广泛用于训练过程中,以增强模型性能,将其影响扩展到直接分割任务之外。例如,SEAL Y. Liu 等人。 (2023) 率先使用类似 SAM 的模型在大规模 3D 点云上进行自监督表示学习。彭等人。 (2023) 利用这些模型生成的实例掩码来提高 3D 语义分割中无监督域适应的性能。 RadOcc H.Zhang 等人。 (2023) 利用 SAM 提供形状先验并执行分段引导的亲和力蒸馏,利用跨模式知识转移来增强 3D 占用的特征表示。

尽管这些 VFM 表现出对基于图像的感知任务的熟练程度,但它们在捕获 3D 信息方面表现出局限性。此外,由于其定制架构,集成新传入的模式(例如激光雷达点云)作为输入构成了重大挑战。

5.2 LLM

大型语言模型 (LLM) 的泛化性和可解释性能力正在吸引自动驾驶社区的广泛关注。他们对小样本学习的熟练程度使他们能够有效地处理分布外的场景,例如遇到稀有物体。此外,LLM固有的推理能力使其非常适合需要逻辑处理和决策的任务。

规划。LLM已应用于生成控制信号并解释驾驶策略。典型的管道如图 13 所示,GPT-Driver Mao 等人。 (2023) 应用 GPT3.5 作为运动规划器来改进轨迹生成。像人类一样驾驶 Fu 等人。 (2024)使用GPT3.5探索驾驶场景中的LLM,重点关注长尾案例中的类人推理、解释和问题解决。语言MPC Sha 等人。 (2023) 将LLM与模型预测控制相结合,以增强决策能力。温迪禄等人。 (2023) 利用 GPT3.5 和 4 来构建专注于推理、反思和记忆的知识驱动系统。

然而,目前的LLM被认为不足以满足综合驾驶任务 L. Chen 等人的要求。 (2023)。主要限制是它们无法完全理解 3D 空间,而这是停车等任务的关键要求。探索如何将现有的LLM扩展到驾驶基础模型仍然是一个开放且令人兴奋的研究方向

洞察力。这项调查还强调了LLM作为基于视觉的自动驾驶系统的基本构建模块的潜力。LLM擅长适应不同的视觉任务,特别是在数据稀缺的环境中,其少量学习能力可以实现快速、准确的模型适应和推理。 PromptTrack D. Wu 等人(2023) 提出了一种新颖的方法,通过提示推理分支融合跨模态特征来预测对象的 3D 位置和运动。它利用语言提示中嵌入的语义线索,有效地将LLM与现有的 3D 检测和跟踪算法结合起来。 HiLM-D 丁等人。 (2023) 引入了一种高分辨率多模态 LLM 架构,专为风险对象定位以及意图和建议预测的挑战性任务而设计。通过将细粒度的视觉信息纳入 LLM 框架,HiLM-D 提高了模型定位潜在危险并预测驾驶场景中其他智能体的意图和潜在行为的能力。 DriveGPT4 Z. Xu 等人(2023) 专注于构建针对自动驾驶特定需求的视觉问答能力。该模型针对各种场景相关问题进行训练,包括车辆状态、导航引导和交通状况理解等方面,使其能够对自主操作期间遇到的查询提供可解释和上下文感知的响应。最近,LiDAR-LLM S. Yang 等人。 (2023) 显示了LLM在理解 3D LiDAR 方面的潜力。 LiDAR-LLM 的关键见解是将 3D 室外场景认知重新表述为语言建模问题,从而实现 3D QA 和零样本规划任务。在这些应用中,LLM的好处不会直接影响下游任务。此外,他们的性能还没有达到最先进的水平。

5.3 Multimodal Foundation Models

鉴于多模态传感器在自动驾驶中的使用,多模态基础模型为未来的研究提供了一个可行的解决方案。

CLIP。对比语言图像预训练 (CLIP) Radford 等人。 (2021) 是计算机视觉多模式学习的基础构建块。这个基于 Transformer 架构的大型模型包含一个视觉编码器和一个文本编码器,分别独立处理输入图像和字幕。 CLIP 对来自网络的 4 亿对(图像、文本)进行了预训练,实现了最先进的图像表示性能。图像和文本之间的对齐分数计算为编码器输出的点积。基于 CLIP 的成功,研究界已经看到大量扩展探索其功能并将其应用于各种下游任务,包括回归 Yao 等人。 (2023, 2022),检索 Fang, Xiong, Xu, and Chen (2021); H.罗等人。 (2021),一代洪等人。 (2022); Mokady、Hertz 和 Bermano (2021),分割 Tan 等人。 (2023); Q. Yu、He、Deng、Shen 和 Chen (2023) 等人 P. Gau 等人。 (2023); K. Zhou、Yang、Loy 和 Liu(2022a,2022b)。在本节中,我们重点关注 CLIP 在自动驾驶感知方面的有前景的应用。

开放词汇语义分割对自动驾驶感知提出了重大挑战,因为它允许模型识别新进入的物体。最近的几项工作利用 CLIP 的预训练文本嵌入来解决这个问题。 LSeg B. Li、Weinberger、Belongie、Koltun 和 Ranftl (2022) 利用这些嵌入来学习像素级特征以进行有效分割。 MaskCLIP 董等人。 (2023)绕过自注意力池层,生成像素级特征图并采用文本嵌入来预测最终的分割掩模。 FC-CLIP Q. Yu 等人。 (2023) 利用冻结卷积 CLIP 来预测与类别无关的掩模,并利用掩模池化特征进行分类。 ODISE J. Xu 等人。 (2023) 采用生成方法,采用文本到图像扩散模型来提出掩模候选并执行分类。为了进一步增强开放词汇性能,ODISE 使用从预先训练的 CLIP 中裁剪出的特征对掩模进行分类。

CLIP 的潜力不仅仅局限于 2D 感知。如图 14 所示,CLIP2Scene R. Chen 等人。 (2023) 引入了 2D-3D 校准矩阵,使得 MaskCLIP Dong 等人的应用成为可能。 (2023) 到 3D 场景理解任务。 OVO 谭等人。 (2023) 提供了一种新颖的方法来预测任意类别的语义占用率,而无需在训练期间进行 3D 注释。该策略利用从预训练的 2D 开放词汇分割模型到 3D 占用网络的知识蒸馏,并采用像素体素过滤来生成高质量的训练数据。最后,POP-3D Vobeck` y 等人。 (2023) 提出了一个从 2D 图像预测开放词汇 3D 语义体素占用图的框架。这一具有挑战性的问题涵盖 2D-3D 模糊性和开放词汇性质,为 3D 基础、分割和自由格式语言查询检索开辟了新途径。

VLM。尽管 CLIP 已成为自动驾驶多模式学习领域的一支重要力量,但其统治地位并非没有受到挑战。其他新兴的 VLM 正在展示值得注意的感知能力,并在端到端驾驶应用中具有巨大的潜力。值得注意的是,Dolphins 利用 OpenFlamingo 来增强其自动驾驶系统的推理和交互性。这种方法展示了 VLM 超越纯粹图像/文本对齐的能力,并将更高级别的认知功能纳入决策过程。同样,On the Road with GPT-4V Wen 等人。 (2023) 提出了一项引人注目的研究,在自动驾驶的关键任务上严格测试最先进的 VLM,例如稀有物体检测、因果推理和不确定场景下的决策。此外,VLM 还应用于 AD 的各种问答任务中。例如,DriveLM Sima 等人。 (2023) 认识到人类驾驶员会通过多个步骤而不是单轮 VQA 来推理决策,因此引入了图形视觉问答 (GVQA) 来模仿人类推理过程。为了验证这种方法的有效性,他们创建了 DriveLMnuScenes 和 DriveLM-CARLA 数据集,并为此任务提供了具有挑战性的基准。与此同时,Reason2Drive Nie 等人。 (2023) 从开源驾驶数据集中(例如 nuScenes、Waymo 和 ONCE)收集有关感知、预测和推理步骤的顺序组合的链式问答对。他们基于收集的数据集,引入了一个可解释的、基于链的推理自主系统。这些作品突出了 VLM 在自动驾驶领域不断发展的前景,表明 CLIP 可能不是该领域的唯一主角。持续探索和比较不同的 VLM 架构和学习范式对于释放多模态感知的全部潜力以实现强大而可靠的自动驾驶解决方案至关重要。

6 现在与未来

在上述方法的推动下,我们总结了当前的趋势,并提出了几个重要的研究方向,这些方向有可能显着推进自动驾驶视觉基础模型领域的发展。

6.1 Data Preparation

6.1.1 数据采集

自动驾驶数据集的演变可以分为两个不同的世代。第一个例子是 KITTI Geiger 等人。 (2012)的特点是传感器模式有限、数据量相对较小,并且重点关注感知级任务。第二代,由 nuScenes Caesar 等数据集带头。 (2020) 和 Waymo P. Sun 等人。 (2020),在传感器复杂性、数据规模和多样性以及任务范围方面展现出显着的飞跃,不仅包括感知,还包括预测和控制 H. Li, Li, et al. (2023)。展望未来,自动驾驶数据集的未来可能在于利用来自在线来源和自动驾驶车辆持续运营部署的未标记数据的巨大潜力。

6.1.2 数据生成

自动驾驶数据生成算法的发展展示了多方面数据合成的清晰轨迹。早期的算法主要侧重于生成单一数据模式,例如激光雷达扫描或相机图像。然而,最新一代展示了先进的功能:

- 多模态一致性:这些算法可以跨多种模态生成数据,确保一致性和传感器间的有效性。

- 增强的场景模拟:最新的算法可以操纵虚拟环境中的特定元素。这允许插入具有挑战性的“极端情况”场景,例如行人突然出现或车辆发生故障。

- 多样化的驾驶条件:先进的算法现在可以将更广泛的环境因素纳入生成的数据中。这包括天气变化(雾、雨、雪)、照明(夜间驾驶、阳光刺眼),甚至季节变化。

展望未来,数据生成的研究可能会转向利用新兴的人工智能生成计算(AIGC)领域。 AIGC 算法不仅可以生成全新数据,还可以修改和扩充现有数据集。这将允许有效的数据扩展和定制,根据特定的地理区域或驾驶场景定制训练集。

6.2 自监督训练

自我监督学习已成为增强自动驾驶模型的重要技术,而无需大量标记数据。这种方法正在迅速发展,呈现出几个主要趋势:

- 从单模态到多模态:早期的自监督方法主要利用单传感器模态,例如相机图像或激光雷达扫描。然而,最新一代拥抱多模态。

- 多视图和时间一致性:最新的方法集成了多视图和时间一致性。

- 从图像学习 3D:另一个令人兴奋的趋势是能够利用图像信息来推断 3D 形状先验。这允许直接从未标记的图像训练 3D 模型,从而无需昂贵的 3D 数据。

未来的研究可以集中于进一步加强不同模式之间的交互,实现跨传感器的无缝信息交换和联合推理。此外,利用在大规模数据集上训练的强大基础模型(例如大型语言模型(LLM))中的知识蒸馏是另一个有趣的方向。这可以加速专门的自动驾驶任务的学习过程,并有可能释放新的功能。

6.3 Adaptation

视觉基础模型在自动驾驶领域仍处于萌芽阶段,促使研究人员利用其他领域的现有 FM 进行适应。这种适应主要采取三种形式:

- 先验提取:许多方法利用 SAM 或 DINO 等 FM 来提取信息丰富的图像块,然后将其用作对象检测或分割等下游任务的先验。 - 混合架构:一些世界模型集成了预先训练的 FM(例如 GPT)作为组件来预测代表驾驶环境的未来令牌序列。这利用了LLM的推理能力来增强模型的预测。 - 知识蒸馏和辅助训练:知识蒸馏等技术将 FM 的压缩知识转移到更小的 AD 模型中,从而在不需要过多资源的情况下提高其性能。进一步的研究探索使用 FM 来指导新 AD 模型的训练过程。

展望未来,AD 的 VFM 开发面临着几个关键挑战和机遇:

- 多任务微调:一个中心问题是如何同时在多个下游任务(例如目标检测、轨迹预测)上有效地微调 VFM。这需要算法能够协调特定于任务的适应,同时保持共享的视觉表示。

- 协同任务交互:研究需要探索涉及不同感官模式的不同任务如何在 VFM 框架内合作并相互增强。这可能会让模型对驾驶环境有更全面的了解。

- 实时部署:由于AD对实时性的关键要求,另一个重要趋势是开发高效的VFM,可以在车辆内的板载硬件上有效运行。这涉及探索模型压缩技术、轻量级架构和专用硬件加速。

通过应对这些挑战并利用新兴趋势,VFM 有可能彻底改变 AD 领域。它们提供了强大、适应性强的模型的承诺,这些模型可以从不同的数据源中学习,了解复杂的交通场景,并实时有效地做出反应,最终为更安全、更可靠的自动驾驶汽车铺平道路。

7 结论

基础模型的出现从根本上重塑了人工智能的格局,其彻底改变自动驾驶的潜力是不可否认的。本文深入探讨了专门针对自动驾驶的视觉基础模型(VFM)的关键,重点介绍了数据生成、预训练和适应的关键技术。然而,实现强大且适应性强的自动驾驶感知系统的旅程仍然充满挑战。我们希望我们的研究和平台能够促进安全关键型自动驾驶中视觉基础模型的未来研究。

  • 27
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值