多任务SOTA!清华PreWorld:半监督3D Occ世界模型新突破~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华大学最新ICLR 2025中稿的自动驾驶世界模型工作—PreWorld!本文创新性地提出半监督以视觉为中心的 3D 占用世界模型,通过独特的两阶段训练范式,有效利用 2D 标签,大幅降低标注成本。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『世界模型』技术交流群

论文作者 | Xiang Li等

编辑 | 自动驾驶之心

在自动驾驶领域,理解 3D 动态场景对于规划至关重要,当前自动驾驶场景理解任务中,3D 占用预测和 4D 占用预测面临诸多挑战,如标注成本高、信息易损失等。本文创新性地提出半监督以视觉为中心的 3D 占用世界模型 PreWorld,通过独特的两阶段训练范式,有效利用 2D 标签,大幅降低标注成本。其简单且高效的状态条件预测模块,避免了信息损失,增强了模型性能。实验结果表明,PreWorld 在多项任务中表现卓越,如在 3D 占用预测任务上超越先前最优方法,在 4D 占用预测中达到新的 SOTA 性能。

写在前面&笔者的个人理解

3D场景理解构成了自动驾驶系统的基石,对规划和导航等下游任务产生了直接的影响。在各种 3D 场景理解任务中,3D占用预测任务在自动驾驶系统中发挥着至关重要的作用。它的目标是从有限的观察中预测整个场景中每个体素的语义占用。考虑到激光雷达在准确的几何信息捕获方面的强大性能,在之前的一些方法中激光雷达点云被作为优先的输入模态。由于其造价比较昂贵,近年来转向以视觉为中心的解决方案。

尽管基于以视觉为中心的方法取得了重大进展,但它们主要集中在增强对当前场景的更好感知。对于路径规划而言,自动驾驶汽车不仅需要理解当前的场景,还需要基于对世界动态特性的理解来预测未来场景的演变。因此,4D占用预测被引入来预测给定历史观测的未来3D占用率。

最近的一些研究旨在通过学习 3D 占用世界模型来实现这一目标。然而,在处理图像输入时,这些方法遵循一条迂回的路径,如下图(b)所示。通常,采用预先训练的 3D 占用模型来获得当前占用,然后将其输入到预测模块以生成未来占用。预测模块包括将占用编码为离散标记的标记器、生成未来标记的自回归架构和获得未来占用的解码器。在这种重复的编码和解码过程中很容易发生信息丢失。因此,现有方法严重依赖 3D 占用标签作为监督来产生有意义的结果,导致显著的标注成本。

7108998bb5872fcc1eaf3d6b4a9a9c0c.png

与 3D 占用标签相比,2D 标签相对容易获取。最近,使用纯 2D 标签进行自监督学习在 3D 占用预测任务中显示出一些有希望的结果,如上图(a)所示。通过利用体积渲染,使用 2D 深度图和语义标签来训练模型。然而,在 4D 占用预测任务中还没有类似的尝试。

基于以上观察,我们提出了 PreWorld,一种半监督的以视觉为中心的 3D 占用世界模型,旨在满足训练期间 2D 标签的利用率,同时在 3D 占用预测和 4D 占用预测任务中实现具有竞争力的性能,如上图(c)所示。

在nuScenes数据集上的大量实验验证了我们的方法的有效性和可扩展性,并证明了PreWorld在3D占用率预测、4D占用率预测和运动规划任务中实现了具有竞争力的性能。

文章链接:https://arxiv.org/abs/2502.07309

网络模型结构&细节梳理

4D Occupancy预测任务的回顾

对于在时刻,以视觉为中心的3D占用预测任务采用张环视图像作为输入,然后预测当前时刻的3D占用结果。一个3D占用模型通常会包含一个栅格网络以及一个占用预测头。占用预测任务可以用下述的方式进行表述。

853b73fbe8cb9fbdc450c7b5c0e1afba.png

另一方面,以视觉为中心的4D占用预测任务利用过去帧的图像序列作为输入,用于预测未来帧的3D占用结果。3D占用世界模型通过自回归的方式实现这一过程。

170b4527d1521259a3f9ba1d2fe74953.png

为了实现上述所描述的4D占用预测任务,我们采用了一个3D占用模型来预测过去帧的3D占用结果,然后使用一个场景标记器,一个自回归的架构和一个解码器来预测未来的3D占用结果。再获得历史占用结果之后,4D占用预测模型通过场景标记器将3D占用编码到离散的标记。随后,被使用基于现有的这些标记来预测未来的标记,生成的结果被喂入到解码器中生成未来的占用结果。整个过程可以用下式进行表示。

cef1cfab8f1075d04e9c0a7f77a78bf6.png

状态条件预测模块

在本文中,我们更倾向于采用直接的方式,这使我们能够同时优化 3D 占用模型和预测模块。具体而言,我们采用了状态条件预测模块代替了场景标记器、自回归架构以及解码器。提出的状态条件预测模块的整体网络结构如下图所示。

6bf1f54354aacb07d3fe260ecc138b4c.png

不失一般性,我们的预测模块仅由两个 MLP 组成。我们证明,即使没有复杂的设计,这种简单的架构仍然可以实现与最先进方法相当甚至更好的结果。这种设计表明,以前在训练期间单独优化预测模块的做法有其局限性。通过同时优化占用网络和预测模块,3D 占用世界模型可以实现更强大的性能。此外,我们的模块可以选择性地将速度、加速度和历史轨迹等自车状态信息纳入网络当中。

此外,这种架构还为我们带来了额外的好处。鉴于之前的预测模块将场景编码为离散标记,它们无法像自监督的 3D 占用模型那样通过体积渲染直接监督带有 2D 标签的未来预测。由于我们的模块保留了未来场景的体积特征,因此它提供了以自监督方式训练 3D 占用世界模型的机会。

时间二维渲染自监督

  • Attribute Projection:我们利用一个属性映射头模块将当前和未来的时序体特征序列进行变换到时序属性场当中。

2c65a5e9a7254e2fbe208ce0c3c7a30c.png
  • Ray Generation:给定在时刻的第个相机的内参和外参,我们可以提取一组3D射线。此外,我们可以利用自车位姿矩阵将来自相邻帧的射线转换为当前帧,从而更好地捕捉周围信息。这些射线共同构成了集合。

  • Volume Rendering:对于每一条射线,我们沿着这条射线采样个点。然后每个采样点的渲染权重可以按照下式计算出来。

4331589aa2c42e5c539e20768b345aae.png
  • Temporal 2D Rendering Supervision:在利用3D射线集合获得2D渲染预测后,时间2D渲染损失看可以表示为如下的形式

f52262cca9db561d3c5a2ae17f54c3ce.png

两阶段训练范式

f913766e0cfe3ab011d5b3895840ba2d.png

通过上述PreWorld算法模型的整体流程图可以看出,我们的PreWorld训练方案包括两个阶段。具体而言,在自监督的预训练阶段,我们使用属性映射头模块来实现具有2D标签的时序监督。这种方法使我们能够利用丰富且易于获取的2D标签,同时预先优化占用网络和预测模块。在随后的微调阶段,我们利用占用头生成占用结果,并使用 3D 占用标签进行进一步优化。

实验结果&评价指标

3D占用预测实验结果

我们首先将 PreWorld 模型的 3D 占用预测性能与 Occ3D-nuScenes 数据集上的最新方法进行比较。如下表所示,PreWorld 实现了 34.69 的 mIoU,超过了之前最先进的方法 OccFlowNet,其 mIoU 为 33.86,以及使用 2D、3D 或组合监督的其他方法。这凸显了 PreWorld 在感知当前场景方面的有效性。此外,所提出的2D预训练阶段将性能提高了0.74mIoU,几乎所有类别(包括静态和动态)都有所改善。这些结果强调了所提出的 2D 预训练阶段对于增强场景理解的重要性。

2acdf94815a886c6fb1b5f089e4f5330.png

此外,我们进一步将 PreWorld 的定性结果与最新的全监督方法 SparseOcc 和自监督方法 RenderOcc进行了比较,如下图所示。RenderOcc 可以将场景体素投影到多视图图像上,以从各个射线方向获得全面的监督,从而从 2D 标签中捕获丰富的几何和语义信息。然而,如最后一栏所示,它在预测看不见的区域和理解整体场景结构方面遇到了困难。另一方面,SparseOcc 在预测场景结构方面表现出色。

aceb3b0f6a6d0f2b46726650bd32f7e8.png

然而,由于对 3D 占用标签中的小物体和长尾物体的监督不足,它在预测电线杆和摩托车等物体时经常会遇到信息丢失的情况,如第二行和最后一行所示。相比之下,我们的模型最初是用 2D 标签进行预训练的,从而对场景的几何和语义有了足够的理解。在微调阶段,使用 3D 占用标签进一步优化模型,使 PreWorld 能够更好地预测场景结构。因此,PreWorld 在整体结构预测方面的表现与 SparseOcc 相当,但在预测细粒度局部细节方面表现出明显的优势,凸显了我们训练范式的优越性。

4D占用预测实验结果

下表展示了PreWorld算法模型与现有基线模型OccWorld和OccLLaMA相比的 4D 占用预测性能。当仅使用 3D 占用监督时,我们的方法在未来 3 秒间隔内实现了最高的 mIoU,优于基线。这证明了我们的训练方法在端到端占用特征提取和预测模块中的有效性。与 3D 占用预测的结果类似,结合 2D 预训练阶段可进一步改善所有未来时间戳的 mIoU 和 IoU。鉴于 2D 标签比昂贵的 3D 占用标记更容易获得,PreWorld 的两阶段训练范式带来的性能提升是值得注意的。

ab9c924695afbd4677f54c214d7f0a77.png

运动规划实验结果

下表进一步比较了运动规划任务的结果。在不纳入自车状态信息的情况下,我们的模型的表现与占用世界模型甚至一些精心设计的规划模型相当。当使用与 OccWorld 和 OccLLaMA 相同的配置(以灰色表示)时,我们的方法实现了 SOTA 性能并获得了显着改进,并通过预训练阶段进一步增强。由于 PreWorld 遵循直接训练范式,以原始图像作为输入并产生规划结果,因此自车状态的影响与世界模型基线的影响明显不同。我们将这种差异归因于先前工作中观察到的“捷径”效应。

151b566e9f91522ad0eba7aece665da1.png

消融实验分析

接下来,本文分析了2D预训练阶段不同监督属性的有效性。预训练的好处在 3D 占用预测和 4D 占用预测中都是一致的。因此,为了节省计算资源,我们对 3D 占用预测任务进行了消融实验。如下表所示,随着 RGB、深度和语义属性在预训练阶段逐步添加,最终的 mIoU 结果稳步提高。这证明了三个 2D 监督属性的有效性,即使是最简单的 RGB 属性也能提高性能。

e9cd61f9f31d0404f65e7fc0a53f8ee4.png

为了验证我们方法的可扩展性,我们对预训练和微调阶段使用的数据规模进行了消融研究,如下表所示。首先,引入预训练阶段可以持续提高所有微调数据规模的性能,其中更大的预训练规模可带来更好的结果。其次,当微调数据集较小(150 个场景)时,这意味着昂贵的 3D 占用标签有限,预训练阶段显着将 mIoU 从 18.66 提升到 25.02。通过预训练,在较小数据集(450 个场景)上微调的模型实现了与没有预训练但在较大数据集(700 个场景)上微调的模型相当的性能,mIoU 分别为 33.37 和 33.95。这些结果凸显了我们的两阶段训练范式的有效性和可扩展性。

1cdcc5b87a4f117b7b87c2c734a67ccd.png

结论

在本文中,我们提出了PreWorld算法模型,一种用于自动驾驶的半监督以视觉为中心的 3D 占用世界模型。我们提出了一种新颖的两阶段训练范式,使我们的方法能够利用丰富且易于访问的 2D 标签进行自监督预训练。通过大量实验,我们证明了 PreWorld 在 3D 占用预测、4D 占用预测和运动规划任务中的鲁棒性。

① 自动驾驶论文辅导来啦

68f2bb3adb4a6962314708230ad61403.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

751818cce76b3499def43b64ff9491ab.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

1b27f7ec5efd45032073021db0e2ab51.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

f19253b4c2593e133fcbb70584c426ab.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值