ViDAR: Visual Point Cloud Forecasting enables Scalable Autonomous Driving (CVPR 2024）

77wpa

已于 2025-03-23 12:02:00 修改

阅读量1k

点赞数 25

分类专栏： # 感知综合文章标签：自动驾驶人工智能

于 2025-03-23 12:00:30 首次发布

本文链接：https://blog.csdn.net/i6101206007/article/details/146451395

版权

感知综合专栏收录该内容

5 篇文章

订阅专栏

ViDAR: Visual Point Cloud Forecasting enables Scalable Autonomous Driving - 视觉点云预测助力可扩展式自动驾驶（CVPR 2024）

摘要
1. 引言
2. 相关工作
3. 方法论
4. 实验
5. 结论
致谢
References
附录
A. 讨论
B. 实现细节
C. 额外的消融研究
D. 定性结果

声明：此翻译仅为个人学习记录

文章信息

标题：ViDAR: Visual Point Cloud Forecasting enables Scalable Autonomous Driving (CVPR 2024)
作者：Zetong Yang, Li Chen, Yanan Sun, Hongyang Li
文章链接：https://arxiv.org/pdf/2312.17655
文章代码：https://github.com/OpenDriveLab/ViDAR

摘要

与对通用视觉的广泛研究相比，针对可扩展式视觉自动驾驶的预训练研究仍鲜有涉及。视觉自动驾驶应用需要同时包含语义、三维几何和时间信息的特征，以实现联合感知、预测和规划，这对预训练提出了巨大挑战。为解决这一问题，我们提出了一种新的预训练任务，称为视觉点云预测，即从历史视觉输入中预测未来的点云。该任务的关键优势在于能够协同学习语义、三维结构和时间动态，因此在各种下游任务中表现出优越性。为应对这一新问题，我们提出了ViDAR，这是一种用于预训练下游视觉编码器的通用模型。它首先通过编码器提取历史嵌入。然后，这些表示通过一种新颖的潜在渲染算子转换为三维几何空间，以进行未来点云的预测。实验表明，该模型在下游任务中取得了显著的提升，例如，在三维检测中提升了3.1%的NDS，在运动预测中减少了约10%的误差，在规划中降低了约15%的碰撞率。

在这里插入图片描述

图1. ViDAR是一个视觉自动驾驶预训练框架，它利用从历史视觉输入中估计未来点云作为预训练任务。我们将这一新的预训练任务称为视觉点云预测。借助ViDAR，我们在感知、预测和规划等多个下游应用中取得了显著提升。

1. 引言

近年来，视觉或仅使用摄像头的自动驾驶技术取得了快速发展，其输入为单目或多视角图像[52, 64, 70, 71, 79]。现有方法仅利用视觉输入，就展现出了提取鸟瞰图（BEV）特征[6, 29, 47, 53, 62, 85]以及在感知[30, 43, 55, 68, 76]、预测[17, 28, 66]和规划[31, 32]方面表现出色的能力。尽管这些模型在应用上取得了显著进步，但它们在很大程度上依赖于精确的3D标注，而这些标注往往难以收集，例如语义占用情况[3, 10]、3D边界框[5, 16, 65]、轨迹[15]等，因此难以实现规模化生产。
考虑到标注工作的高昂成本，预训练[2, 18, 63]已成为扩大下游应用规模的关键方法。其核心思想是定义预训练任务，利用大量现成的数据来学习有意义的表示，从而在标注数据有限的情况下提高下游任务的性能。
尽管计算机视觉领域的预训练研究已经相当广泛[8, 20–22, 34, 67, 81, 82]，但其在视觉自动驾驶中的应用仍鲜有探索。视觉自动驾驶对预训练提出了巨大挑战，因为它要求特征同时保持语义、三维几何和时间动态信息，以实现联合感知、预测和规划[7, 80]。因此，大多数模型仍然依赖于监督预训练，如3D检测[61, 70]或占用情况预测[59, 68, 84]，这些预训练需要使用通常无法大规模获取的标注数据[40]。一些方法提出通过估计深度[61]或渲染被遮挡的场景[86]来进行预训练。它们使用图像-激光雷达对作为实现无标注、可扩展预训练的手段。然而，这些方法在多视角三维几何或时间建模方面存在困难（图2）。深度估计仅从一张图像中获取深度信息，在多视角几何方面存在局限；渲染技术虽然能从多视角图像中重建场景，但缺乏时间建模能力。然而，时间建模在端到端自动驾驶系统中至关重要，例如UniAD[28]，特别是对于预测和规划这两个最终目标而言，它们需要准确的场景流和物体运动来进行决策。由于缺乏时间建模能力，现有方法对于端到端系统的预训练是不够的。
在这项工作中，我们探索了针对端到端视觉自动驾驶应用的预训练方法，包括感知、预测和规划[7]。我们提出了一种新的预训练任务——视觉点云预测（图2），以充分利用原始图像-激光雷达序列中的语义、三维几何和时间动态信息，同时考虑可扩展性。该任务从历史视觉图像中预测未来的点云。
视觉点云预测的主要原理在于同时监督语义、三维结构和时间建模。通过迫使模型从历史信息中预测未来，它监督了场景流和物体运动的提取，这对于时间建模和未来估计至关重要。同时，它还涉及从图像中重建点云，这监督了多视角几何和语义建模。因此，视觉点云预测提取的特征同时嵌入了几何和时间信息，对感知、跟踪和规划都有益。
为此，我们提出了ViDAR，一种用于预训练的一般视觉点云预测方法（图2）。ViDAR包括三个部分：历史编码器、潜在渲染算子和未来解码器。历史编码器是预训练的目标结构，它可以是任何视觉BEV编码器[47]，用于将视觉序列嵌入到BEV空间中。这些BEV特征被发送到潜在渲染算子。潜在渲染在使ViDAR提升下游任务性能方面起着关键作用。它解决了射线形状的BEV特征问题[48, 87]，建模了三维几何潜在空间，并连接了编码器和解码器。未来解码器是一个自回归变压器，它接收历史BEV特征，以迭代方式预测任意时间戳的未来点云。
ViDAR为视觉自动驾驶预训练提供了一个全面的解决方案。我们在nuScenes数据集[5]上测试了ViDAR在点云预测和下游验证方面的性能。尽管仅使用视觉输入，ViDAR仍然优于之前使用点云的预测方法，在1秒未来点云估计的Chamfer距离上减少了约33%。ViDAR还提高了下游任务的性能。仅使用图像-激光雷达序列，ViDAR就令人惊讶地优于3D检测预训练[70]，例如，在相同的数据规模下，检测和语义占用预测的mAP和mIoU分别提高了1.1%和2.5%。如果也基于3D检测预训练，ViDAR则能将之前的方法提升4.3%的mAP和4.6%的mIoU。此外，由于ViDAR在预训练时有效地捕捉了几何和时间信息，它在端到端自动驾驶的所有任务（包括感知、预测和规划）上都显著提升了UniAD[28]的性能（图1）。实验结果验证了视觉点云预测能够实现可扩展的自动驾驶。
在这里插入图片描述

图2. 视觉自动驾驶预训练范式与我们的ViDAR架构之间的比较。与现有方法相比，视觉点云预测能够联合建模多视角几何和时间动态。随后，我们提出了ViDAR，利用图像-激光雷达序列对视觉编码器进行预训练。

2. 相关工作

视觉自动驾驶的预训练。针对可扩展应用的预训练在通用视觉领域已得到广泛研究。这些方法大致可分为对比学习方法[8, 20, 35, 67]，它们通过正负样本对来学习判别性特征；以及掩码信号建模方法[13, 21, 75, 83]，它们通过从剩余信号中恢复被丢弃的信号来全面理解全局语义。

相比之下，视觉自动驾驶的预训练仍鲜有探索。视觉自动驾驶面临巨大挑战，因为它需要同时实现语义理解、三维结构感知和时间建模，以实现联合感知、预测和规划。现有的视觉方法主要考虑语义；基于图像-激光雷达对的方法[61, 86]在时间建模方面存在困难；其他监督策略[68, 70]则不具备可扩展性。在这项工作中，我们提出了视觉点云预测，它通过统一的过程同时建模语义、时间动态和三维几何，并且易于扩展。

点云预测。点云预测是自动驾驶中最基本的自监督任务之一，它根据过去的点云输入来预测未来的点云。先前的工作使用距离图像[4, 58]，这是一种通过传感器内外参数将点云投影到密集二维图像上得到的表示。基于历史距离图像，它们应用三维卷积[57]或长短时记忆网络（LSTM）[77, 78]来预测未来的点云。然而，它们还需要额外建模传感器内外参数的运动。后来的方法通过引入四维占据预测[37]和可微射线投射[36]来分离传感器的估计，从而确保对世界的更好建模。与先前文献相比，我们的目标是视觉点云预测，即使用过去的图像来预测未来的点云。同时，我们将这一任务作为视觉自动驾驶的预训练范式，并展示了其在广泛下游应用中的优越性。

3. 方法论

在本节中，我们将详细阐述我们的ViDAR，这是一种用于通用自动驾驶预训练的视觉点云预测方法。我们首先在第3.1节对ViDAR进行概述，然后分别在第3.2节和第3.3节中深入探讨潜在渲染和未来解码器。

3.1 概述

如图2所示，ViDAR由三个组件组成：（a）历史编码器，也是预训练的目标结构，它从视觉序列输入I中提取鸟瞰图（BEV）嵌入 $F_{bev}$ ；它可以是任何视觉BEV编码器[29, 47, 53]；（b）潜在渲染算子，它在潜在空间中模拟体渲染操作，以便从 $F_{bev}$ 中获得几何嵌入 $\hat{F}_{bev}$ ；（c）未来解码器，它以自回归的方式预测时间戳 $t∈\{1, 2, ...\}$ 时的未来BEV特征 $F_t$ 。最后，跟随一个预测头，将 $\hat{F}_t$ 投影到3D占据体 $P_t$ 中。这一过程可以表述为：

在这里插入图片描述

从预测的占据体 $P_t$ 中获取点云预测。这一过程与之前的点云预测方法[37]类似。具体来说，我们首先从原点向各个指定方向投射射线，然后找出每条射线上具有最大占据响应的航路点的距离，最后根据该距离和相应的射线方向计算点的位置。

3.2 潜在渲染

视觉点云预测用于预训练的一个直接解决方案是将历史编码器和未来解码器直接与可微射线投射[37]相结合，这是最先进的点云预测方法中的关键组件，用于从预测的占据体中渲染点云并计算用于反向传播的损失。然而，我们的实验结果表明，这种方法并没有带来改进，甚至由于几何特征建模能力的缺陷而对下游任务产生了不利影响。

初步介绍。可微射线投射是在占据体上进行的体渲染过程，占据体表示为 $P∈\Bbb{R}^{L×H×W}$ 。它渲染各种射线的深度，并随后将深度与相应的射线方向转换为点云。

正式地，从原点传感器位置 $o∈\Bbb{R}^3$ 开始，可微射线投射以不同的方向 $d∈\Bbb{R}^{n×3}$ 投射 $n$ 条射线。沿着每条射线 $i$ ，它在不同距离 $λ^{(j)}∈\Bbb{R},j∈\{1, 2, ..., m\}$ 处均匀采样 $m$ 个航路点，直到到达三维空间的边界。这些航路点的坐标计算如下：

在这里插入图片描述

这些航路点坐标 $∈\Bbb{R}^{n×m×3}$ 用于计算占据值。这一过程是量化的[37]，其中航路点被离散化为占据体网格。然后，航路点的值被推导为体网格的关联值， $p^{(i,j)}=P^{([x^{(i,j)}])}$ 。这里 $[\cdot]$ 表示用于离散化航路点的取整操作。

可微射线投射通过积分过程渲染第 $i$ 条射线的对应深度 $\hat{λ}^{(i)}$ ：

在这里插入图片描述

图3. 射线状特征与几何特征。射线状特征在同一射线上的鸟瞰图（BEV）网格上显示出相似的特征响应；而来自潜在渲染的几何特征则保持了判别性的三维几何形状，并能够在潜在空间中描述三维世界。

在这里插入图片描述

表1. 不同预测结构下的下游检测性能。“N/A”表示未进行预测预训练的基线。我们观察到，当直接使用带有可微射线投射的历史编码器和未来解码器进行预训练时，性能会下降；而使用潜在渲染算子时，性能则得到显著提升。

为简化起见，我们将公式3和公式4分别命名为条件概率函数和距离期望函数。条件概率函数通过考虑先前航路点未被占据的条件概率以及射线在此特定网格终止的概率来确定网格的占据情况；距离期望函数则从三维体网格的占据情况中检索深度。然后，应用L1损失来监督渲染的深度，以训练点云预测。

尽管可微射线投射在点云预测任务中取得了巨大成功，但其在视觉点云预测预训练中的应用并未为下游性能带来任何益处（表1）。经过这样的预训练后，观察到了射线状特征[48, 87]，即沿同一射线的网格往往具有相似的特征（图3 - (a.)）。其根本原因是，三维空间中沿同一射线的航路点通常对应于视觉图像中的同一像素，导致倾向于学习相似的特征响应。因此，当转移到下游应用时，这些射线状特征不够判别性和代表性，导致性能下降。

潜在渲染：为了提取更具判别性和代表性的特征，我们引入了潜在渲染算子。它首先通过特征期望函数计算射线方向的特征，然后通过将射线方向的特征与其相关的条件概率加权来定制每个网格的特征。整体结构如图4所示。

在这里插入图片描述

图4. 多组潜在渲染包含多个针对不同通道并行运行的潜在渲染。潜在渲染通过条件概率函数和特征提取函数捕捉几何特征。 $\oplus$ 表示在通道维度上连接多组特征。

具体来说，受公式(4)的启发，特征期望函数的形式类似地表述为：

在这里插入图片描述

其中 $i$ 表示从原点延伸到第 $i$ 个鸟瞰图（BEV）网格的射线。这里， $\hat{p}$ 是通过条件概率函数（公式(3)）计算得到的条件概率，该函数以从 $F_{bev}$ 投影出的可学习独立概率为输入。射线方向的特征由同一条射线上的所有网格共享。

然后，我们计算网格特征为：

在这里插入图片描述

该公式突出了具有更高条件概率的鸟瞰图（BEV）网格的响应，从而使 $\hat{F}_{bev}$ 具有判别性。这使得BEV编码器能够在预训练期间学习几何特征（图3 - (b.)）。

为了增强几何特征的多样性，我们进一步设计了多组潜在渲染。通过在不同特征通道上并行化多个潜在渲染，我们允许射线方向的特征保持多样信息，从而获得更好的下游性能。

如公式(3)所述，每个BEV网格的条件概率不仅由其自身的独立响应决定，还由其所有先前网格的响应决定。因此，在预训练阶段，一旦模型提高了特定BEV网格的响应，其所有先前和后续网格的相应响应就会受到抑制，从而缓解了预训练期间射线状特征的问题。在使用潜在渲染进行预训练后，通常观察到在特定射线上只有少数几个响应较高的峰值，这表明场景中存在物体或结构。这有效地促进了对三维环境更准确和一致的理解。

在这里插入图片描述

图5. 未来解码器根据自车运动 $e_t$ 的条件和上一个鸟瞰图（BEV）特征，迭代预测下一个BEV特征 $\hat{F}_t$ ，以实现具有任意自车控制的特定未来预测。

3.3 未来解码器

未来解码器根据先前鸟瞰图（BEV）潜在空间 $\hat{F}_t$ 的输入和预期的自车运动 $e_t$ ，预测帧 $t$ 的下一个BEV特征 $\hat{F}_t$ 。然后，利用预测的特征，根据公式(1)生成点云。

架构。如图5所示，未来解码器是一个变换器，可以迭代地用于以自回归的方式从上一个展开嵌入中预测未来的BEV特征。在第 $t$ 次迭代中，它首先将描述自车在下一帧中的预期坐标和航向的自车运动条件 $e_t$ ，通过多层感知机（MLP）编码为高维嵌入，然后将其添加到未来的BEV查询中，作为变换器的输入。接着，使用6个变换器层（由可变形自注意力[91]、时间交叉注意力和前馈网络[14]组成）来根据条件和上一个BEV特征 $\hat{F}_t$ 预测未来的 $\hat{F}_t$ 。

时间交叉注意力层遵循可变形交叉注意力[91]的设计。不同之处在于查询点的参考坐标。在可变形交叉注意力[91]的上下文中，“参考坐标”指的是查询点在键和值的特征图上的对应位置。通常，它们是一致的。然而，对于未来解码器来说，由于自车的移动，上一个帧和目标帧之间的自车坐标系不一定对齐。因此，我们根据自车运动条件，额外计算未来BEV查询在上一个BEV特征图中的参考坐标，以对齐坐标系。

在获得下一个BEV特征 $\hat{F}_t$ 后，我们使用一个投影层来生成占据体 $P_t$ 。

损失。我们不使用L1损失来监督各种射线的深度，而是直接应用射线方向的交叉熵损失来最大化其对应射线上点的响应，因为我们已经通过潜在渲染算子获得了几何特征。具体来说，对于第 $t$ 个未来点云的每个真实点，我们从原点位置 $o$ （传感器位置）向该点投射一条射线，在射线上均匀采样一些航路点，直到超出体积范围，并为该射线计算交叉熵损失，以最大化点位置的响应并最小化其他航路点位置的响应。这个过程可以表述为：

在这里插入图片描述

其中， $T$ 表示未来监督的次数， $n$ 表示第 $t$ 个真实点云中的点数。 $g^{(i)}$ 表示第 $i$ 个真实点的坐标， $x^{(i,j)}$ 表示沿同一射线的第 $j$ 个航路点的坐标。 $P_t^{(·)}$ 表示三线性插值，用于从占据体 $P_t$ 中获取相应的值。

4. 实验

本节将探讨以下问题：

是否可以从视觉历史中估计未来的点云，与点云方法相比，ViDAR的表现如何？
ViDAR能否同时帮助感知、预测和规划，以实现可扩展的自动驾驶？
ViDAR能否减少下游应用对精确人工标注的依赖？
不同模块如何影响最终性能？

4.1 实验设置

数据集。我们在具有挑战性的nuScenes [5]数据集上进行实验，这是一个包含1000个自动驾驶序列的大规模数据集。该数据集广泛用于包括3D目标检测 [29, 45–47]、多目标跟踪 [25, 60, 89]和语义占据预测 [10, 68]在内的感知任务。它也成为后续端到端自动驾驶研究的一个流行基准，包括地图分割 [41, 69]、轨迹预测 [17, 49]、未来占据预测 [23, 90]和开环规划 [27, 28, 33]。

实现细节。我们的实现基于mmDet3D代码库 [9]，并在BEVFormer上进行3D检测的下游验证，在OccNet [68]上进行语义占据预测的下游验证，以及在UniAD [28]上进行统一感知、预测和规划的下游验证。我们选择这些下游基线是因为它们在广泛任务上的有效性和共享相同的BEV编码器结构，即BEVFormer编码器 [47]。若无特别说明，ViDAR的默认历史编码器为BEVFormer-base编码器，它由一个带有FPN颈部 [51]的ResNet101-DCN [11, 19]主干和额外的6个编码器层组成，用于从多视图图像序列中提取BEV特征，这与下游模型保持一致。

为了渲染几何特征，我们使用16组潜在渲染。每组负责在BEVFormer-base编码器后，根据256通道的特征渲染16通道的潜在空间。未来解码器是一个6层结构，每层通道数为256。未来的BEV查询是200×200个可学习令牌，表示X轴和Y轴的有效感知范围为[-51.2m, 51.2m]。然后，我们使用一个输出通道为16的投影层，将预测的未来BEV特征转换为占据体预测 $P∈\Bbb{R}^{200×200×16}$ ，其中16表示高度维度，范围为[-5m, 3m]。

在预训练期间，我们使用5帧历史多视图图像，并迭代未来解码器6次，以预测未来3秒的点云（每帧间隔0.5秒）。在每个训练步骤中，我们随机选择1个未来预测来计算损失，并断开其他预测的梯度以节省GPU内存。我们使用AdamW优化器[38, 56]对系统进行50个epoch的预训练，初始学习率为2e-4，并通过余弦退火策略进行调整。对于微调，我们遵循官方发布的下游模型的相同训练策略。

4.2 主要结果

现在，我们展示ViDAR在不同任务中的有效性。首先，我们测试ViDAR作为点云预测框架的能力，并将其与使用LiDAR输入的最先进方法进行比较。然后，我们展示其作为视觉自动驾驶预训练解决方案的先进性。我们在nuScenes验证数据集上，按照感知-预测-规划的顺序，报告与先前最先进模型的下游比较结果。

下游设置：对于下游验证，我们测试ViDAR在不同初始化设置下预训练BEV编码器，具体如下：

ViDAR-cls：BEV编码器使用在ImageNet分类[12]上预训练的骨干进行初始化，然后在nuScenes数据集上进行ViDAR预训练。
ViDAR-2D-det：BEV编码器骨干首先在COCO数据集[50]上进行2D目标检测预训练，然后在nuScenes数据集上进行ViDAR预训练。
ViDAR-3D-det：BEV编码器骨干首先在nuScenes数据集上使用FCOS3D[70]进行3D检测预训练，然后进行ViDAR预训练。

对于UniAD实验，在ViDAR预训练后，我们首先微调BEVFormer进行3D检测，然后将其作为后续两阶段微调的初始化，这与UniAD官方实现一致。

点云预测。在表2中，我们展示了ViDAR与先前最先进的点云预测方法4D-Occ[37]的比较。评估指标为Chamfer距离。我们按照与4D-Occ相同的设置，使用1秒和3秒的输入时间范围（分别对应2帧和6帧的输入序列）来评估两种方法。为了提供详细的性能比较，我们报告了每个未来时间戳的定量预测结果。评估时仅考虑X轴和Y轴范围在[-51.2m, 51.2m]内的点。

如表2所示，ViDAR在1秒和3秒设置下均始终优于4D-Occ，尽管仅使用视觉输入。具体来说，使用1秒历史输入时，ViDAR相对于4D-Occ取得了显著改进，将未来1秒预测的预测误差降低了约33%。当使用3秒输入时，我们观察到3秒预测的误差降低了约18%。此外，由于我们未来解码器的自回归设计，ViDAR能够有效地预测任意未来，尽管受到有限1秒输入范围的限制。这些实验证明了ViDAR在点云预测中的有效性。

在这里插入图片描述

表2. 点云预测。ViDAR仅使用视觉输入，在未来预测方面超越了先前的最先进方法。

在这里插入图片描述

表3. 在不同骨干网络和初始化条件下，使用和不使用ViDAR预训练的BEVFormer检测性能。

感知。我们在四个下游感知任务上验证ViDAR，包括3D目标检测、语义占据预测、地图分割和多目标跟踪。在表3和表4中，我们分别比较了BEVFormer [47]和OccNet [68]在3D检测和语义占据预测任务中，使用和不使用ViDAR预训练在不同骨干网络和初始化设置下的性能。值得注意的是，仅使用图像-激光雷达序列的ViDAR，在3D检测监督预训练上表现出色（表3的第4行和第5行，42.6% mAP对比41.5% mAP；表4的第2行和第3行，29.57% mIoU对比26.98% mIoU）。此外，我们在地图分割（表5）和多目标跟踪（表6）任务上也观察到了显著的提升。这些实验证明了ViDAR作为增强3D几何建模的可扩展预训练方法的有效性。

预测。运动预测的比较结果展示在表7中。如表所示，ViDAR显著提升了UniAD [28]的性能。例如，我们观察到minADE误差减少了约10%，EPA提升了3.5%。在表8中，我们比较了UniAD在使用和不使用ViDAR预训练时的未来占据预测性能。结果表明，ViDAR提升了UniAD在所有区域的性能。我们在近距离区域观察到IoU提升了2.4%，VPQ提升了2.7%，在远距离区域观察到IoU提升了2.0%，VPQ提升了2.5%。通过ViDAR预训练，UniAD克服了其在远距离物体占据预测上的局限性，并在所有区域上超越了BEVerse [90]。这些实验突出了ViDAR在增强下游模型利用时序信息和提升预测性能方面的有效性。

在这里插入图片描述

表4. 语义占用预测。ViDAR在不同骨干网络和初始化方式下均能持续提升OccNet的性能。

在这里插入图片描述

表5. 地图分割。ViDAR在在线地图构建方面提升了UniAD的性能。评估指标为分割交并比（IoU）。

在这里插入图片描述

表6. 多目标跟踪。借助ViDAR，UniAD的表现超越了以往仅使用视觉图像进行端到端跟踪的追踪器。

在这里插入图片描述

表7. 运动预测。ViDAR有效地增强了时序建模能力，进而提升了UniAD在未来运动预测方面的表现，在不同指标上均展现出持续的提升。

在这里插入图片描述

表8. 未来占用预测。在近处（标注为“n.”，30x30米）和远处（标注为“f.”，50x50米）评估区域内，ViDAR均提升了UniAD对物体未来占用情况的预测能力。

在这里插入图片描述

表9. 规划。ViDAR在避障和规划精度方面均提升了UniAD的性能。需要注意的是，所报告的数据是通过对未来3秒内每个时间戳的结果取平均值得到的，这与VAD [33]和ST-P3 [27]在3秒时间戳处报告的结果（而非平均值）保持一致。如需更多详情，请参阅GitHub上的相关问题（Issue）。

规划。由于有效的时序建模和先进的未来预测能力，ViDAR显著提升了UniAD的性能，将其3秒内的平均碰撞率降低了约15%。此外，它实现了平均规划位移误差的显著减少，减少了0.21米，并使UniAD在nuScenes开环规划评估中超越了最先进的方法VAD [33]。这些改进证明了ViDAR作为端到端自动驾驶有价值预训练方法的有效性。在避碰和规划精度方面的增强性能突出了ViDAR在提升下游自动驾驶应用安全性和效率方面的潜力。

联合感知-预测-规划。最后，我们总结了ViDAR对最先进端到端视觉自动驾驶系统UniAD [28]在联合感知、预测和规划方面的改进。如表10所示，ViDAR在UniAD的所有子模块上同时带来了显著的改进，包括感知（检测、跟踪、映射）、预测（运动预测和未来占据预测）以及规划。这些一致的改进表明，视觉点云预测有效地利用了易于获取的图像-激光雷达序列背后的语义、3D几何和时序动态信息。因此，这实现了可扩展的视觉自动驾驶。

在这里插入图片描述

表10. ViDAR在联合感知、预测和规划方面的性能提升。ViDAR在面向端到端自动驾驶的所有任务上均持续提升了UniAD [28]的性能，验证了其在可扩展视觉自动驾驶中的有效性。

在这里插入图片描述

图6. 在有限监督数据下进行微调时ViDAR的验证。我们通过减少下游微调过程中3D目标检测可用的标注数据（从完整训练集减少到1/8子集）来验证ViDAR的监督效率，并观察到在每个子集上均有持续的性能提升。

在这里插入图片描述

表11. 潜在渲染对下游微调的影响分析。我们比较了通过ViDAR进行预训练的3D检测性能，其中一组未采用潜在渲染操作（标记为“N/A”），另一组则采用了不同组别的潜在渲染。

4.3 消融研究

我们进一步分析了ViDAR在有限监督数据下提升下游模型性能的能力，以及潜在渲染操作对学习3D几何潜在空间的影响。更多的消融研究可以在补充材料中找到。

监督预训练的效率。预训练的主要目标是减少对精确3D标注的依赖。在图6中，我们展示了ViDAR在减少现代3D检测器对准确3D框标注依赖方面的有效性。我们使用nuScenes上的部分3D标注对BEVFormer-base进行微调，标注范围从完整数据集到1/8子集。

如图6所示，ViDAR显著减少了对3D标注的依赖。值得注意的是，使用ViDAR预训练的BEVFormer在仅使用一半监督样本的情况下，即39.4% mAP对比37.7% mAP，就超越了其在完全监督下的性能1.7% mAP。因此，通过ViDAR，我们可以在不牺牲精度的情况下减少一半的3D标注。此外，我们观察到随着可用监督的减少，改进趋势一致增加。例如，在完整、一半、四分之一和1/8子集上微调时，mAP的改进分别为4.9%、6.5%、6.7%和7.3%。这些结果突出了ViDAR在利用大量图像-激光雷达序列方面的潜力。

潜在渲染操作的影响。潜在渲染是ViDAR的关键组件，它使视觉点云预测能够有效地为下游应用做出贡献。它解决了预训练过程中遇到的射线状特征问题。在表11中，我们通过比较使用或不使用潜在渲染的ViDAR预训练的下游模型性能来验证其有效性。下游模型是用于3D目标检测的BEVFormer-small [47]。作为参考，使用ImageNet-cls预训练的基线性能为44.11% NDS。

如表11所示，当缺少潜在渲染（表示为“N/A”），也称为第3.2节中的基线时，微调后下游性能显著下降，从44.11% NDS降至40.20% NDS。相比之下，使用16组潜在渲染时，性能提升至47.58% NDS，比基线显著提高了3.47% NDS。

我们还在表11中比较了不同并行组数的潜在渲染性能。结果表明，通过将通道分成更多组并分别整合信息，性能得到了一致的提升。

5. 结论

在本文中，我们引入了视觉点云预测，即从历史视觉图像中预测未来点云，作为端到端自动驾驶的新预训练任务。我们开发了ViDAR，一个用于预训练视觉BEV编码器的通用模型，并设计了一个潜在渲染操作来解决射线状特征问题。总之，我们的工作证明了视觉点云预测能够实现可扩展的自动驾驶。

局限性和未来工作。尽管具有可扩展性的潜力，但在本文中，我们主要在nuScenes数据集的图像-激光雷达序列上进行预训练，其数据规模仍然有限。未来，我们计划扩大ViDAR的预训练数据规模，研究跨多样数据集的视觉点云预测，并尽可能多地使用公开可用的图像-激光雷达序列来训练一个基础的视觉自动驾驶模型 [39]。

致谢

OpenDriveLab是隶属于上海人工智能实验室的自动驾驶团队。这项工作得到了中国国家重点研发计划（2022ZD0160104）、国家自然科学基金（62206172）和上海市科学技术委员会（23YF1462000）的支持。我们感谢OpenDriveLab团队成员在项目过程中提供的宝贵反馈。

References

[1] Adil Kaan Akan and Fatma Guney. StretchBEV: Stretch- ¨ ing Future Instance Prediction Spatially and Temporally. In ECCV, 2022. 7
[2] Randall Balestriero, Mark Ibrahim, Vlad Sobal, Ari Morcos, Shashank Shekhar, Tom Goldstein, Florian Bordes, Adrien Bardes, Gregoire Mialon, Yuandong Tian, Avi Schwarzschild, Andrew Gordon Wilson, Jonas Geiping, Quentin Garrido, Pierre Fernandez, Amir Bar, Hamed Pirsiavash, Yann LeCun, and Micah Goldblum. A Cookbook of Self-supervised Learning. arXiv preprint arXiv:2304.12210, 2023. 1
[3] J. Behley, M. Garbade, A. Milioto, J. Quenzel, S. Behnke, C. Stachniss, and J. Gall. SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences. In ICCV, 2019. 1
[4] Alex Bewley, Pei Sun, Thomas Mensink, Dragomir Anguelov, and Cristian Sminchisescu. Range Conditioned Dilated Convolutions for Scale Invariant 3D Object Detection. arXiv preprint arXiv:2005.09927, 2021. 3
[5] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuScenes: A Multi-modal Dataset for Autonomous Driving. In CVPR, 2020. 1, 2, 5
[6] Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei Geng, Hongyang Li, Conghui He, Jianping Shi, Yu Qiao, and Junchi Yan. PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark. In ECCV, 2022. 1
[7] Li Chen, Penghao Wu, Kashyap Chitta, Bernhard Jaeger, Andreas Geiger, and Hongyang Li. End-to-end Autonomous Driving: Challenges and Frontiers. arXiv preprint arXiv:2306.16927, 2023. 2, 13
[8] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He. Improved Baselines with Momentum Contrastive Learning. arXiv preprint arXiv:2003.04297, 2020. 2
[9] MMDetection3D Contributors. MMDetection3D: OpenMMLab next-generation platform for general 3D object detection. https://github.com/open- mmlab/mmdetection3d, 2020. 5
[10] OpenScene Contributors. OpenScene: The Largest Up-to-Date 3D Occupancy Prediction Benchmark in Autonomous Driving, 2023. 1, 5
[11] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable Convolutional Networks. In ICCV, 2017. 5
[12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR, 2009. 6, 7
[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018. 2
[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR, 2021. 5
[15] Scott Ettinger, Shuyang Cheng, Benjamin Caine, Chenxi Liu, Hang Zhao, Sabeek Pradhan, Yuning Chai, Ben Sapp, Charles Qi, Yin Zhou, Zoey Yang, Aurelien Chouard, Pei ´ Sun, Jiquan Ngiam, Vijay Vasudevan, Alexander McCauley, Jonathon Shlens, and Dragomir Anguelov. Large Scale Interactive Motion Forecasting for Autonomous Driving: The Waymo Open Motion Dataset. In ICCV, 2021. 1
[16] Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun. Vision meets robotics: The KITTI dataset. I. J. Robotics Res., 2013. 1
[17] Junru Gu, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, and Hang Zhao. ViP3D: End-to-end visual trajectory prediction via 3d agent queries. In CVPR, 2023. 1, 5, 7
[18] Jie Gui, Tuo Chen, Jing Zhang, Qiong Cao, Zhenan Sun, Hao Luo, and Dacheng Tao. A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends. arXiv preprint arXiv:2301.05712, 2023. 1
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. In CVPR, 2016. 5, 6, 7
[20] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum Contrast for Unsupervised Visual Representation Learning. In CVPR, 2020. 2
[21] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, and Ross Girshick. Masked Autoencoders Are Scal- ´ able Vision Learners. In CVPR, 2022. 2
[22] Ji Hou, Benjamin Graham, Matthias Nießner, and Saining Xie. Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. In CVPR, 2021. 2
[23] Anthony Hu, Zak Murez, Nikhil Mohan, Sof´ıa Dudas, Jeffrey Hawke, Vijay Badrinarayanan, Roberto Cipolla, and Alex Kendall. FIERY: Future Instance Segmentation in Bird’s-Eye view from Surround Monocular Cameras. In ICCV, 2021. 5, 7
[24] Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. GAIA-1: A Generative World Model for Autonomous Driving. arXiv preprint arXiv:2309.17080, 2023.
13
[25] Hou-Ning Hu, Yung-Hsu Yang, Tobias Fischer, Trevor Darrell, Fisher Yu, and Min Sun. Monocular Quasi-Dense 3D Object Tracking. TPAMI, 2022. 5, 7
[26] Peiyun Hu, Aaron Huang, John Dolan, David Held, and Deva Ramanan. Safe Local Motion Planning with Self-Supervised Freespace Forecasting. In CVPR, 2021. 7
[27] Shengchao Hu, Li Chen, Penghao Wu, Hongyang Li, Junchi Yan, and Dacheng Tao. ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning. In ECCV, 2022. 5, 7
[28] Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, and Hongyang Li. Planning-oriented Autonomous Driving. In CVPR, 2023. 1, 2, 5, 7, 8, 13, 15
[29] Junjie Huang, Guan Huang, Zheng Zhu, Ye Yun, and Dalong Du. BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View. arXiv preprint arXiv:2112.11790, 2021. 1, 3, 5
[30] Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, and Jiwen Lu. Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction. In CVPR, 2023. 1
[31] Xiaosong Jia, Yulu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, and Hongyang Li. DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving. In ICCV, 2023. 1
[32] Xiaosong Jia, Penghao Wu, Li Chen, Jiangwei Xie, Conghui He, Junchi Yan, and Hongyang Li. Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving. In CVPR, 2023. 1
[33] Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, and Xinggang Wang. VAD: Vectorized Scene Representation for Efficient Autonomous Driving. In ICCV, 2023. 5, 7
[34] Li Jiang, Zetong Yang, Shaoshuai Shi, Vladislav Golyanik, Dengxin Dai, and Bernt Schiele. Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding. In CVPR, 2023. 2
[35] Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised Contrastive Learning. arXiv
preprint arXiv:2004.11362, 2020. 2
[36] Tarasha Khurana, Peiyun Hu, Achal Dave, Jason Ziglar, David Held, and Deva Ramanan. Differentiable Raycasting for Self-Supervised Occupancy Forecasting. In ECCV, 2022. 3, 7
[37] Tarasha Khurana, Peiyun Hu, David Held, and Deva Ramanan. Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting. In CVPR, 2023. 3, 6
[38] Diederik P. Kingma and Jimmy Ba. Adam: A Method for Stochastic Optimization. In ICLR, 2015. 6
[39] Hongyang Li, Yang Li, Huijie Wang, Jia Zeng, Pinlong Cai, Huilin Xu, Dahua Lin, Junchi Yan, Feng Xu, Lu Xiong, Jingdong Wang, Futang Zhu, Kai Yan, Chunjing Xu, Tiancai Wang, Beipeng Mu, Shaoqing Ren, Zhihui Peng, and Yu Qiao. Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future. arXiv preprint arXiv:2312.03408, 2023. 9
[40] Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie Wang, Jia Zeng, Zhiqi Li, Jiazhi Yang, Hanming Deng, Hao Tian, Enze Xie, Jiangwei Xie, Li Chen, Tianyu Li, Yang Li, Yulu Gao, Xiaosong Jia, Si Liu, Jianping Shi, Dahua Lin, and Yu Qiao. Delving Into the Devils of Bird’s-Eye-View Perception: A Review, Evaluation and Recipe. TPAMI, 2023. 2
[41] Tianyu Li, Li Chen, Huijie Wang, Yang Li, Jiazhi Yang, Xiangwei Geng, Shengyin Jiang, Yuting Wang, Hang Xu, Chunjing Xu, Junchi Yan, Ping Luo, and Hongyang Li. Graph-based Topology Reasoning for Driving Scenes. arXiv preprint arXiv:2304.05277, 2023. 5
[42] Xiaofan Li, Yifu Zhang, and Xiaoqing Ye. DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model. arXiv preprint arXiv:2310.07771, 2023. 13
[43] Yanwei Li, Yilun Chen, Xiaojuan Qi, Zeming Li, Jian Sun, and Jiaya Jia. Unifying Voxel-based Representation with Transformer for 3D Object Detection. In NeurIPS, 2022. 1, 7
[44] Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, and Zeming Li. BEVStereo: Enhancing Depth Estimation in Multi-View 3D Object Detection with Temporal Stereo. In AAAI, 2023. 7
[45] Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang Shi, Jianjian Sun, and Zeming Li. BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection. In AAAI, 2023. 5, 15
[46] Yanwei Li, Zhiding Yu, Jonah Philion, Anima Anandkumar, Sanja Fidler, Jiaya Jia, and Jose Alvarez. End-to-end 3D Tracking with Decoupled Queries. In ICCV, 2023. 7
[47] Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, and Jifeng Dai. BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. In ECCV, 2022. 1, 2, 3, 5, 6, 7, 8, 15
[48] Zhiqi Li, Zhiding Yu, Wenhai Wang, Anima Anandkumar, Tong Lu, and Jose Manuel ´ Alvarez. FB-BEV: BEV Rep- ´ resentation from Forward-Backward View Transformations. ICCV, 2023. 2, 4
[49] Ming Liang, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, and Raquel Urtasun. PnPNet: End-to-End Perception and Prediction With Tracking in the Loop. In CVPR, 2020. 5, 7
[50] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C. Lawrence Zitnick. Microsoft COCO: Common Objects in Context. In ECCV, 2014. 6, 7
[51] Tsung-Yi Lin, Piotr Dollar, Ross B. Girshick, Kaiming He, ´ Bharath Hariharan, and Serge J. Belongie. Feature Pyramid Networks for Object Detection. In CVPR, 2017. 5
[52] Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, and Limin Wang. SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera Videos. arXiv preprint arXiv:2308.09244, 2023. 1
[53] Yingfei Liu, Tiancai Wang, Xiangyu Zhang, and Jian Sun. PETR: Position Embedding Transformation for Multi-View 3D Object Detection. In ECCV, 2022. 1, 3
[54] Yingfei Liu, Junjie Yan, Fan Jia, Shuailin Li, Qi Gao, Tiancai Wang, Xiangyu Zhang, and Jian Sun. PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images. In ICCV, 2023. 7
[55] Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela L Rus, and Song Han. BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation. In ICRA, 2023. 1
[56] Ilya Loshchilov and Frank Hutter. Decoupled Weight Decay Regularization. arXiv preprint arXiv:1711.05101, 2019. 6
[57] B. Mersch, X. Chen, J. Behley, and C. Stachniss. Self-supervised Point Cloud Prediction Using 3D Spatiotemporal Convolutional Networks. In CoRL, 2021. 3
[58] Gregory P. Meyer, Ankit Laddha, Eric Kee, Carlos VallespiGonzalez, and Carl K. Wellington. LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving. In CVPR, 2019. 3
[59] Chen Min, Liang Xiao, Dawei Zhao, Yiming Nie, and Bin Dai. Occupancy-MAE: Self-Supervised Pre-Training LargeScale LiDAR Point Clouds With Masked Occupancy Autoencoders. TIV, 2023. 2
[60] Ziqi Pang, Zhichao Li, and Naiyan Wang. SimpleTrack: Understanding and Rethinking 3D Multi-object Tracking. arXiv preprint arXiv:2111.09621, 2021. 5
[61] Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, and Adrien Gaidon. Is Pseudo-Lidar Needed for Monocular 3D Object Detection? In ICCV, 2021. 2, 3
[62] Cody Reading, Ali Harakeh, Julia Chae, and Steven L. Waslander. Categorical Depth DistributionNetwork for Monocular 3D Object Detection. In CVPR, 2021. 1
[63] Ravid Shwartz-Ziv and Yann LeCun. To Compress or Not to Compress–Self-Supervised Learning and Information Theory: A Review. arXiv preprint arXiv:2304.09355, 2023. 1
[64] Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang, Chengen Xie, Ping Luo, Andreas Geiger, and Hongyang Li. DriveLM: Driving with Graph Visual Question Answering. arXiv preprint arXiv:2312.14150, 2023. 1
[65] Pei Sun, Henrik Kretzschmar, Xerxes Dotiwalla, Aurelien Chouard, Vijaysai Patnaik, Paul Tsui, James Guo, Yin Zhou, Yuning Chai, Benjamin Caine, Vijay Vasudevan, Wei Han, Jiquan Ngiam, Hang Zhao, Aleksei Timofeev, Scott Ettinger, Maxim Krivokon, Amy Gao, Aditya Joshi, Yu Zhang, Jonathon Shlens, Zhifeng Chen, and Dragomir Anguelov. Scalability in Perception for Autonomous Driving: Waymo Open Dataset. In CVPR, 2020. 1
[66] Izzeddin Teeti, Salman Khan, Ajmal Shahbaz, Andrew Bradley, and Fabio Cuzzolin. Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey. In IJCAI, 2022. 1
[67] Yonglong Tian, Dilip Krishnan, and Phillip Isola. Contrastive Multiview Coding. In ECCV, 2020. 2
[68] Wenwen Tong, Chonghao Sima, Tai Wang, Li Chen, Silei Wu, Hanming Deng, Yi Gu, Lewei Lu, Ping Luo, Dahua Lin, and Hongyang Li. Scene as Occupancy. In ICCV, 2023. 1, 2, 3, 5, 6, 7
[69] Huijie Wang, Tianyu Li, Yang Li, Li Chen, Chonghao Sima, Zhenbo Liu, Bangjun Wang, Peijin Jia, Yuting Wang, Shengyin Jiang, Feng Wen, Hang Xu, Ping Luo, Junchi Yan, Wei Zhang, and Hongyang Li. OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping. In NeurIPS Datasets and Benchmarks, 2023. 5
[70] Tai Wang, Xinge Zhu, Jiangmiao Pang, and Dahua Lin. FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection. In ICCV Workshops, 2021. 1, 2, 3, 6, 7
[71] Tai Wang, Qing Lian, Chenming Zhu, Xinge Zhu, and Wenwei Zhang. MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones. arXiv preprint arXiv:2207.12716, 2022. 1
[72] Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, and Yu Qiao. InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions. In CVPR, 2023. 6, 7
[73] Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, and Jiwen Lu. DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving. arXiv preprint arXiv:2309.09777, 2023. 13
[74] Yue Wang, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, , and Justin M. Solomon. DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries. In CoRL, 2021. 7
[75] Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, and Christoph Feichtenhofer. Masked Feature Prediction for Self-Supervised Visual Pre-Training. In CVPR, 2022. 2
[76] Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, and Jiwen Lu. SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving. In ICCV, 2023. 1
[77] Xinshuo Weng, Jianren Wang, Sergey Levine, Kris Kitani, and Nicholas Rhinehart. Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud Forecasting for Sequential Pose Forecasting. arXiv preprint arXiv:2003.08376, 2020. 3
[78] Xinshuo Weng, Junyu Nan, Kuan-Hui Lee, Rowan McAllister, Adrien Gaidon, Nicholas Rhinehart, and Kris M Kitani. S2Net: Stochastic Sequential Pointcloud Forecasting. In ECCV, 2022. 3
[79] Penghao Wu, Xiaosong Jia, Li Chen, Junchi Yan, Hongyang Li, and Yu Qiao. Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline. In NeurIPS, 2022. 1
[80] Penghao Wu, Li Chen, Hongyang Li, Xiaosong Jia, Junchi Yan, and Yu Qiao. Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling. In ICLR, 2023. 2
[81] Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. Unsupervised Feature Learning via Non-Parametric Instance Discrimination. In CVPR, 2018. 2
[82] Saining Xie, Jiatao Gu, Demi Guo, Charles R Qi, Leonidas Guibas, and Or Litany. PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding. In ECCV, 2020. 2
[83] Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, and Han Hu. SimMIM: A Simple Framework for Masked Image Modeling. In CVPR, 2022. 2
[84] Xiangchao Yan, Runjian Chen, Bo Zhang, Jiakang Yuan, Xinyu Cai, Botian Shi, Wenqi Shao, Junchi Yan, Ping Luo, and Yu Qiao. SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous Driving. arXiv preprint arXiv:2309.10527, 2023. 2
[85] Chenyu Yang, Yuntao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang Zhang, Gao Huang, Hongyang Li, Yu Qiao, Lewei Lu, Jie Zhou, and Jifeng Dai. BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision. In CVPR, 2023. 1
[86] Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, and Wanli Ouyang. UniPAD: A Universal Pre-training Paradigm for Autonomous Driving. arXiv preprint arXiv:2310.08370, 2023. 2, 3
[87] Jia Zeng, Li Chen, Hanming Deng, Lewei Lu, Junchi Yan, Yu Qiao, and Hongyang Li. Distilling Focal Knowledge From Imperfect Expert for 3D Object Detection. In CVPR, 2023. 2, 4
[88] Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, and Raquel Urtasun. Learning unsupervised world models for autonomous driving via discrete diffusion. arXiv preprint arXiv:2311.01017, 2023. 13
[89] Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, and Hang Zhao. MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries. In CVPR, 2022. 5, 7
[90] Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, and Jiwen Lu. BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving. arXiv preprint arXiv:2205.09743, 2022. 5, 7
[91] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable DETR: Deformable Transformers for End-to-End Object Detection. In ICLR, 2020. 5

附录

A. 讨论

为了更好地理解我们的工作，我们补充了一些人们可能会提出的直观问题。

Q1：ViDAR与世界模型之间的关系是什么？

一般来说，ViDAR可以被视为一种世界模型——根据观测和动作来预测未来的世界。然而，它与现有的自动驾驶世界模型[24, 42, 73, 88]有所区别。这些模型在输入和输出上都在同一模态内运作（例如，图像输入与图像输出，或LiDAR输入与LiDAR输出），而ViDAR首次实现了不同模态之间的桥接。它利用历史视觉序列作为输入来预测未来的点云。通过使用ViDAR，可以根据不同的未来自车运动，利用视觉输入生成各种未来的点云。这在3D视觉自动驾驶训练中具有重要的潜力。

Q2：为什么选择点云（LiDAR）作为输出，而不是未来的图像？

与图像相比，点云提供了对3D环境的高度精确描绘，有效地捕捉了场景结构、物体位置和几何属性。这种详细的表示在各种3D任务中（包括感知、重建和渲染）都显示出优势。因此，在ViDAR中，我们选择点云作为预测目标。这一选择使模型能够从视觉输入中提取3D几何信息，从而增强下游模型的能力。

Q3：ViDAR的潜在应用和未来方向是什么？

在我们的工作中，我们已经证明了ViDAR作为预训练方法的有效性，可以增强下游端到端自动驾驶模型[7, 28]。此外，考虑到其作为世界模型的能力，利用ViDAR作为基于模型的强化学习的模拟器具有显著的前景，从而增强基于视觉的自动驾驶代理的决策能力。ViDAR在这种情境下的应用为未来的研究开辟了道路。例如，为了促进其可扩展性，有必要研究如何利用来自多样数据集的图像-激光雷达序列。此外，探索ViDAR与其他单模态世界模型的结合，以创建更有利的数据模拟，也为未来的研究提供了有趣的前景。

在这里插入图片描述

图7. 潜在渲染算子的详细架构。为简化起见，此处仅展示单组的情况。给定来自历史编码器的视觉BEV嵌入 $F_{bev}$ ，潜在渲染算子执行一系列步骤。首先，它采用一个投影层来估计独立概率图 $p$ 。随后，条件概率函数生成每个BEV网格的条件概率，记为 $\hat{p}^{(i)}$ 。然后，我们使用特征期望函数计算射线方向的特征，最后，将得到的射线方向特征与条件概率图相乘，以生成几何特征空间。

B. 实现细节

潜在渲染。我们现在深入探讨潜在渲染操作的具体实现细节。如图7所示，潜在渲染操作总共包括4个步骤。在第一步中，给定来自潜在渲染的BEV嵌入，我们使用一个输出通道数为G的投影层来估计独立的概率图：

在这里插入图片描述

其中G是多组潜在渲染的组数。为简化说明，我们重点关注G = 1的情况。在多个组的情况下，我们可以轻松地将 $F_{bev}$ 沿通道分成G个部分，并相应地对每个部分应用潜在渲染。
在第二步中，我们计算每个BEV网格沿其各自射线的条件概率。如图7的步骤-(a.)所示，对于坐标为 $g^{(i)}=\{x_i, y_i\}$ 的第 $i$ 个BEV网格，我们首先从原点 $o$ （通常是BEV特征图的中心）向目标BEV网格投射一条射线。射线的方向确定为： $d^{(i)}=(g^{(i)}−o)/(||g^{(i)} − o||_2)$ 。随后，我们沿射线收集一组先验路径点，这些路径点相比BEV网格 $i$ 更靠近原点。这些路径点以均匀的距离间隔 $λ$ 选择，如下所示：

在这里插入图片描述

其中， $j$ 表示不同路径点的索引，条件 $||g^{(i)} − o||₂$ 确保这些路径点距离原点的距离小于对应BEV网格的距离。图7的步骤-(b.)中展示了一个示例，其中我们为第 $i$ 个BEV网格收集了4个先验路径点，其坐标表示为 $x^{(i,j)}$ ，其中 $j∈\{0, 1, 2, 3\}$ 。接着，转到图7的步骤-(c.)，我们基于目标BEV网格的先验路径点的独立概率来计算其条件概率。一般来说，条件概率函数定义为：

在这里插入图片描述

其中， $p^{(:)}$ 是双线性插值函数，用于从 $p$ 中计算位置 $(:)$ 对应的概率。

在第三步中，我们根据BEV嵌入和条件概率图计算射线方向的特征：

在这里插入图片描述

其中， $k$ 表示与第 $i$ 个BEV网格方向相同的BEV网格的索引。

如图7所示，经过特征期望函数处理后，位于同一条射线上的所有BEV网格共享相同的全局特征嵌入。因此，最后，为了突出那些条件概率较高的BEV网格，我们将射线方向的特征与条件概率图相乘，以获得几何特征响应：

在这里插入图片描述

在我们的具体实现中，我们分别将 $G$ 和 $λ$ 设置为16和1。

C. 额外的消融研究

C.1 潜在渲染的结构

在表12中，我们研究了条件概率函数（公式(10)，图7中的步骤2）和特征期望函数（公式(11)，图7中的步骤3）的有效性。作为背景，我们使用经过ImageNet分类预训练的BEVFormer-small [47]作为基线。我们通过首先使用不同结构的ViDAR对基线进行预训练，然后比较下游3D检测性能来评估不同的函数。基线结果，即40.20%的NDS，是通过使用主论文第3.2节中提到的直接流程对模型进行预训练获得的，该流程包括历史编码器、未来解码器和可微射线投射。

为了单独评估条件概率函数的有效性，我们直接将BEV嵌入 $F_{bev}$ 与聚合的条件概率图 $\hat{p}$ 相乘，以获得用于未来点云预测的特征。如表12所示的第二行，条件概率函数极大地缓解了射线状特征问题，并相比简单基线带来了7.14%的NDS提升。然后，通过引入特征期望函数，潜在渲染算子整合了整个射线方向的特征，这进一步带来了下游性能的提升。

在这里插入图片描述

表12. 潜在渲染设计各组件的消融实验。“Cond. Prob. Func.”和“Feat. Exp. Func.”分别代表条件概率函数和特征期望函数。

C.2 未来预测

在本研究中，我们旨在展示未来预测在涉及时间建模的下游任务中的好处。我们在多目标跟踪任务上进行消融实验，因为该任务需要模型跨不同帧关联3D对象，从而反映其时间建模能力。在我们的实验中，我们使用UniAD [28]的第一阶段作为跟踪模型，并评估其在经过ViDAR预训练（使用不同帧数的未来点云监督）后在下游跟踪任务上的性能。

如表13所示，我们评估了四种设置，这些设置分别使用“0”、“1”、“3”和“6”个未来帧来监督ViDAR的视觉点云预测预训练。标记为“0未来监督”的设置意味着我们仅使用ViDAR来重建当前帧的LiDAR点云，而不进行任何未来预测和监督。如图所示，我们发现当使用更多未来帧进行监督时，跟踪性能持续提高。这一观察结果突出了视觉点云预测对下游模型时间建模能力的有益影响。

在这里插入图片描述

表13. 未来监督的消融实验。在预训练阶段增加未来监督可以持续提升跟踪性能。

C.3 预训练结构

在表14中，我们研究了ViDAR预训练对下游BEV编码器不同组件的影响。我们通过在下游微调过程中加载不同的预训练模型参数集来实现这一点。作为背景，在本次消融研究中，我们使用BEVFormer-small作为3D检测的下游模型。基线性能为44.11% NDS。

如图所示，性能提升主要来源于视图转换组件的预训练，该组件负责从透视多视图图像特征中提取BEV特征。这是合理的，因为如之前的工作[45]所述，视图转换模块在关联2D特征与3D几何和场景结构方面起着关键作用。此外，这突出了ViDAR预训练与任何先进的2D图像预训练技术的兼容性，当与更先进的图像主干结合时，可以带来持续的性能提升，如主论文的表3和表4所示。

在这里插入图片描述

表14. 预训练组件的消融实验。ViDAR主要使视觉BEV编码器的视图转换部分受益。

D. 定性结果

D.1 潜在渲染

图8展示了潜在渲染算子从视觉序列输入中构建几何特征的有效性。图8中的每对图像，左侧显示的是真实点云，右侧可视化的是特征，记为Fˆ bev。如图所示，ViDAR成功地从多视图视觉序列中捕获了3D几何信息，并有效地提取了能够准确表示潜在3D世界的几何特征。
接下来，在图9中，我们比较了使用可微射线投射基线（中间显示）和我们的ViDAR（右侧显示）预训练的BEV编码器提取的BEV特征Fbev。如图所示，射线投射基线在预训练后遇到了射线状特征的问题。相比之下，由于ViDAR在预训练过程中包含了潜在渲染，它有效地突出了保留几何信息的BEV网格的响应。因此，它在预训练后提取了更具判别性的特征，这反过来又有利于下游的微调。

D.2 视觉点云预测

在图10中，我们提供了ViDAR基于历史视觉图像预测未来点云的视觉示例。上部分显示了在1秒时间框架内捕获的历史视觉输入，而下部分则显示了相应的预测未来点云，时间跨度为3秒。

在第一行中，我们展示了一个自车执行左转的示例。可以观察到，ViDAR在其未来预测中熟练地捕获了自车与停放的蓝色公交车之间的相关位置和方向。转到第二行和第三行，我们展示了ViDAR成功捕获自车与其他移动物体（如第二行中的黄色公交车和第三行中的白色汽车）之间相对运动的实例。通过分析LiDAR输出，ViDAR准确地理解了移动物体比自车移动得更快。因此，它估计了这些物体随时间推移而增加的相对距离的位置。然后，第四行展示了一个自车执行右转的示例。这个案例展示了ViDAR基于历史视觉序列对道路地图的有效建模。需要注意的是，所有LiDAR点云可视化都是在自车的坐标空间中呈现的，自车位于3D空间的中心。

此外，在图11中，我们展示了ViDAR基于特定的自车运动（如左转、直行和右转）模拟各种未来点云的能力。这展示了ViDAR作为自动驾驶视觉世界模型的潜力，它利用视觉图像输入生成模拟的未来点云。这样的模拟对于以无监督方式训练视觉自主性的基于模型的强化学习可能是有价值的。

D.3 端到端自动驾驶

最后，在图12中，我们比较了有无ViDAR预训练的UniAD在端到端自动驾驶中的表现。如图所示，包含ViDAR预训练使UniAD能够为其他移动物体生成更精确的未来轨迹（用红色圆圈突出显示）。这种预测精度的提高在增强安全关键的端到端自动驾驶场景的规划过程中起着至关重要的作用。

在这里插入图片描述

图8. 潜在渲染算子生成的几何特征可视化。在每对图像中，左侧展示的是真实LiDAR点云，右侧展示的是ViDAR从多视图图像输入中生成的BEV特征。显然，通过利用潜在渲染算子，ViDAR成功地在潜在空间中捕获了底层的3D几何信息，从而通过特征响应精确地描述了3D世界。

在这里插入图片描述

图9. 可微射线投射基线和带有潜在渲染算子的ViDAR预训练的视觉BEV编码器生成的BEV特征可视化。在每个三元组中，左侧展示的是真实点云，中间展示的是可微射线投射基线预训练的特征，右侧展示的是ViDAR预训练的特征。如图所示，在ViDAR中集成潜在渲染算子证明是有利的，因为它成功地减少了在视觉点云预测预训练过程中出现射线状特征的情况。因此，ViDAR使BEV编码器能够从视觉序列输入中提取出信息丰富且具判别性的BEV特征。

在这里插入图片描述

图10. ViDAR在nuScenes验证集上进行视觉点云预测的定性结果。上方：1秒内的历史视觉输入；下方：3秒内的未来点云预测。第一、二、三行展示了自车与其他停放或移动物体（用红色圆圈突出显示）之间相对运动建模的示例；第四行展示了自车右转时的未来预测。如图所示，ViDAR有效地捕获了3D几何信息和时间动态信息，从而能够正确地从视觉序列输入中预测未来点云。所有点云可视化均基于自车坐标系。

在这里插入图片描述