次元突破!OccSora:深刻演化自动驾驶4D Occ世界(北航&清华)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北航&UC Berkeley&清华最新的工作—OccSora,文章提出了一个基于扩散的4D占用生成模型OccSora来模拟自动驾驶世界模型的进展。本文已经授权自动驾驶之心原创!如果您有相关工作需要分享,请在文末联系我们!

也欢迎添加小助理微信AIDriver004,加入我们的技术交流群

>>点击进入→自动驾驶之心占用网络技术交流群

论文作者 | Lening Wang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

文章提出了一个基于扩散的4D占用生成模型OccSora来模拟自动驾驶世界模型的进展。该模型使用一个四维场景标记器来获得四维占用输入的时空表示,并实现长序列占用视频的高质量重建。然后,学习时空表征的扩散转换器,并根据轨迹提示生成4D占用。OccSora可以生成具有真实3D布局和时间一致性的16秒视频,展示其对驾驶场景时空分布的理解能力。

开源链接:https://wzzheng.net/OccSora/

主要贡献

传统的自动驾驶模型依靠车辆自身的运动来模拟场景的发展,所以无法像人类那样对场景感知和车辆运动有深刻的理解;世界模型的出现能够更深层次地理解自动驾驶场景和车辆运动之间的综合关系。然而现阶段的大多数方法采用自回归框架来模拟3D场景,这阻碍了该模型有效地生成长期视频序列的能力。

所以如图1所示,相较于先前的方法,该模型基于2D视频生成模型Sora,提出了一个4D世界模型OccSora。其设计了一种基于扩散的世界模型来实现遵循物理规律的可控场景生成。具体来说,采用多维扩散技术传递准确时空四维信息,并以真实汽车轨迹为条件实现轨迹可控的场景生成,从而更深入地理解自动驾驶场景与车辆运动之间的关系。OccSora通过训练和测试,可以生成符合物理逻辑的自动驾驶4D占用场景,实现基于不同轨迹的可控场景生成。提出的自动驾驶4D世界模型为理解自动驾驶和物理世界中的动态场景变化开辟了新的可能性。

15d3bc2e91bc36c9eb9f3944f314399c.png图1 现有方法的比较

具体方法

1、自动驾驶系统的世界模型

4D占用可以全方位的捕捉三维场景的结构、语义和时间信息,有效促进弱监督或自监督学习,可应用于视觉、激光雷达或多模态任务。基于此,该论文把世界模型 表示为4D占用 。图2展示了OccSora的总体框架。

b5890392ce0124453f3ce9c01ee65c61.png图2  OccSora模型总体框架

首先构建一个4D占用场景标记器,在时间 和空间 两个维度上压缩真实4D占用 ,从而捕捉4D自动驾驶场景中的关系和演化模式。由此得到压缩后的高级tokens 和重构后的4D占用数据 。此外,还设计了一个基于扩散的世界模型,使用车辆的轨迹信息 作为控制单元,在压缩后的高级tokens的监督下训练,生成高维度场景表示tokens 。最后由4D占用场景标记器解码为一致且动态可控的。

2、4D占用场景标记器

4D占用率预测的目标是确定特定位置随时间的语义类型。该模块首先将真是4D占用场景 离散编码到中间潜在空间 ,得到4D占用场景的真实表示。公式为:,其中 表示编码码本, 表示设计的三维编码器网络和类别嵌入。这种3D占用表示将车辆周围的3D空间划分为体素 ,其中每个体素位置分配一个类型标签N,表示该位置是否被占用以及占用该位置的物体的语义。

与传统方法不同,该模块在同一场景中合并和压缩时间信息,将张量重塑为。与之前的自回归方法相比,这种方法可以统一学习空间和时间演变模式以及真实场景的物理关系。通过分类嵌入的三维编码器网络和编码码本,将张量转化为中间潜在空间,这种重塑确保了4D占用时间动态的全面表现。整个模块如图3所示。

975010e2be0b7df3e277d8571202a56d.png图3 4D占用场景标记器的结构
(1)类别嵌入和标记器

该模块的主要作用是为了准确捕获原始参数的空间信息。首先对输入 进行嵌入操作。具体来说,为 中每个类别分配一个可学习的类别嵌入 ,用来标记连续的3D占用场景的类别。位置信息嵌入为表示类别的token。然后,沿着特征维度将这些嵌入连接起来。为了便于后续在特定维度上进行压缩的3D编码,进一步将 重塑为。

(2)3D视频编码器

为了有效地学习离散地潜在token,进一步对4D占用 的嵌入位置信息进行下采样以提取高维度的特征。设计的编码器架构包括一系列三维下采样卷积层,分别在时间维度()和空间维度()上进行三维下采样,将融合维数提高到。首先将输入缩小三倍,得到,并在前向反馈层和注意力层之后引入dropout层进行正则化。考虑连续帧之间的关系,在下采样后引入跨通道注意,沿着 的维度来分割,然后在被分割的部分之间进行跨通道注意。该操作增强了模型捕捉不同轴向特征之间关系的能力,并将其重塑为原始形状,从而获得输出张量。

(3)码本和训练目标

为了获得更精简的表示,该模块同时学习一个包含N个代码的码本 。码本中的每个代码 编码了场景的一个高级内容,例如对应的位置是否被汽车占据。表示编码的码本。通过将其映射到最近的代码 来将 中的每个空间特征 量化:

其中 表示L2范数。在这之后,对量化特征  进行积分,得到最终的场景表示。

(4)3D视频解码器

为了从学习到的场景表示中重建,设计了一个由3D反卷积层组成的解码器。与编码器相比,解码器架构包括跨通道注意、残差块和一系列3D卷积,可以在时间和空间维度上进行上采样。这个渐进的上采样过程将转换为其原始占用分辨率。然后,解码器沿着通道维度拆分结果以重建时间维度,生成每个体素的占用值。在训练过程中,将会逐步完成编码器、解码器参数和编码码本的训练。设计的网络使得能够同时对输入的4D占用信息进行编码并压缩成多个tokens,从而学习时空融合下世界模型的相关性。

3、基于扩散的世界模型

该论文使用包含时空信息特征的场景token 作为生成模型的输入,并且在车辆轨迹 的控制下进行去噪训练和轨迹可控生成任务,如图4所示。

2c41561f5df0d3f65cce4135da5aeb4b.png图4 基于扩散的世界模型的框架
(1)token嵌入

为了高效、准确地利用transformer,将输入数据token 扁平化为。同时,考虑到位置信息对时空压缩的重要性,该模型利用sin和cos函数来编码位置索引,在输入进行了位置嵌入。

上式对两个主要参数进行操作:C,表示每个位置的嵌入输出维数;,表示枚举编码的位置的token数量。结果输出遵循维度的矩阵结构,使用sin和cos函数构建位置嵌入表示。这些嵌入封装了token的位置属性,增强了模型对输入中位置的理解。将位置编码添加到输入中,得到,它表示位置编码后的token。

(2)轨迹调节嵌入

场景与轨迹之间的转换关系是自动驾驶的一个重要方面。生成与控制轨迹一致的各种4D占用场景是必不可少的。因此,该模型使用自我车辆轨迹作为输入,以产生可控的4D占用。首先,将自我车辆轨迹作为控制输入之一,其中t表示连续时间维度,第三个维度表示车辆沿绝对坐标系x轴和y轴的位置。为了实现轨迹嵌入和编码,将车辆轨迹重塑为,并根据如下公式学习编码:

其中

表示时间步骤嵌入, δ 表示提取轨迹信息的MLP网络。然后将 嵌入扩散transformer的输入序列中,与token信息 一起进行处理。
(3)扩散transformer

该论文设计了一个基于扩散的世界模型,在潜在空间中学习和生成,同时集成自我车辆轨迹和去噪时间步长ν作为控制条件。在模型扩散学习过程中,构建了一个正向噪声过程,逐步将噪声引入到潜在空间,其中常数表示轨迹和时间步长的嵌入。利用重复参数化技巧,可以采样:,其中 。同样训练了4D占用扩散模型来学习反向传播过程。该操作反转前向过程预测:

其中,通过神经网络预测的统计性质。反向过程模型用的变分下界进行训练,简化为:,其中排除了训练过程中不相关的附加项。由于和都是高斯分布,因此可以使用两个分布的均值和协方差来评估KL散度。通过将模型重新参数化为噪声预测网络,可以使用预测噪声与采样高斯噪声之间的简单均方差进行训练。然而,为了训练具有学习到的逆过程协方差的扩散模型,需要对整个KL散度项进行优化。遵循扩散模型方法:首先用训练,然后用全训练。一旦p训练完成,就可以通过初始化和使用重新参数化技巧对采样来获得新的token。

总的来说,在初始阶段作为处理的token 被传递给一系列转换器块以进一步细化。这些块有效地捕获轨迹信息和token之间的关系。在噪声图像输入处理方面,扩散transformer采用了特定的注意机制和损失函数,最大限度地减少了噪声对模型性能的影响,确保了在噪声环境下的鲁棒运行。为了将自我车辆轨迹和去噪时间步长ν作为额外的控制条件,将它们作为补充输入与token嵌入一起馈送到transformer块中。这使得模型可以根据这些条件动态调整其处理,从而更好地适应各种轨迹控制要求。最后,训练好的基于扩散的世界模型成功地将纯噪声和自我车辆轨迹转换为,并最终通过3D解码器解码为。

4、实验

OccSora作为自动驾驶领域的4D占用世界模型,可以在不需要任何3D边界框、地图或历史信息输入的情况下,更深入地理解自动驾驶场景与车辆轨迹之间的关系。它可以构建一个遵循物理定律的长时间序列世界模型。

(1)实现细节

在广泛使用的nuScenes数据集上进行了实验,该数据集是目前最主流和标准的数据集之一,支持了许多知名的研究。对于OccSora模型,对32个连续帧应用了三轮压缩,并将其通道维度增加到128。随后,进一步进行了不同组分和不同轨迹下的对比和消融实验。使用优化器进行训练,初始学习率设置为,权重衰减为0.01。使用8个,我们将每个GPU的批处理大小设置为2。对于4D占用场景标记器的训练,需要每个GPU大约42GB的内存来训练150个epoch,耗时50.6小时。对于基于扩散的世界模型,需要每个GPU大约47GB的内存来训练120万步,这需要108个小时。

(2)4D占用重建

压缩和重建四维占用是学习图像生成所需的潜在时空相关性和特征的必要条件。与传统的视频和图像处理模型不同,OccSora的操作比单帧占用率高一个维度,比图像高两个维度。因此,实现有效的压缩和准确的重建是至关重要的。图5描绘了4D占用的真实情况和重建情况。

5a9bcd8657ec34da4555610587af89df.png图5 4D占用场景标记器重建的可视化

此外还对4D占用重建进行了定量分析,如表1所示。从表中可以看出,即使OccSora实现了比OccWorld高32倍的压缩比,它仍然保持了原始OccWorld模型近50%的mIoU。这种统一的时间压缩有效地捕获了各种元素的动态变化,与渐进式自回归方法相比,提高了长序列建模能力。

表1 4D占用重建的定量分析 01aea4cf7a7f5d0a1eac5c18b0fafc67.png

(3)4D占用生成

在四维占用生成任务的基于扩散的世界模型中,使用OccSora模型生成的token,经过32帧的训练,作为生成实验的输入。在图6中展示了从10,000到1,200,000步的跨训练迭代的可视化结果。这些视觉结果表明,随着训练迭代次数的增加,OccSora模型的精度不断提高,显示出连贯场景的生成。

cdb2a2bb40637df42b034351bfbfb8c8.png图6 精确场景的逐步生成可视化

同样的将提出的OccSora模型与其他代模型进行了比较和定量评估。作为第一个用于自动驾驶的4D占用世界模型,仅将其与传统的图像生成、2D视频生成和静态3D占用场景生成方法进行了比较。如表2所示,OccSora模型在起始距离(FID)方面取得了不错的性能,证明了所提出方法的有效性。

表2OccSora与其他模型在生成能力上的比较 b6162c19a66fbf20e51659d95aed32cd.png

轨迹视频生成。OccSora能够根据不同的输入轨迹生成各种动态场景,从而学习自动驾驶中自我车辆轨迹与场景演化之间的关系。如图7所示,将不同的车辆轨迹运动模式输入到模型中,展示了直行、右转和静止的4D占用情况。此外进行了不同尺度的轨迹生成实验,结果表明,静止场景的FID得分最低,而弯曲场景的FID得分较高,这表明连续建模弯曲运动场景的复杂性和建模静止场景的简单性。

fef1d0a03497c01c9cf2691f970829ce.png图7 不同输入轨迹下的4D占用生成

场景视频生成。在合理的轨迹控制下,场景的多样性至关重要。为了验证在可控轨迹下生成场景的泛化性能,OccSora模型对三种轨迹下不同场景的4D占用场景重建进行了测试。在图8中,左右两部分分别展示了在同一轨迹下产生不同场景的能力。在重建的场景中,周围的树木和道路环境表现出随机变化,但仍然保持了原始轨迹的逻辑,显示了在生成与原始轨迹对应的场景及其在不同场景中的泛化方面保持鲁棒性的能力。

fbce86f7bfa03f4d76a6d794b8041d06.png图8 在轨迹控制下生成多种连续场景

(4)消融实验

标记器与嵌入分析。对提出的组件进行了消融实验,包括不同的压缩尺度、类标记器离散化的数量、时间步嵌入和车辆轨迹嵌入,如表3所示。当类标记器离散化的数量从8个减少到4个时,重构精度下降了大约18%。

表3 不同组件之间的消融实验结果 0afa0a047237c05967174f936fcd0332.png

在去除时间步长嵌入组件后,FID得分也有所下降。在没有位置嵌入的情况下,生成的场景缺乏运动控制,并且受数据分布的影响几乎呈线性运动模式。此外,在较低的压缩比下,尽管重建性能优于较高的压缩比,但缺乏高维特征相关性会阻碍有效场景的生成。

生成步骤分析。去噪的总步数和去噪率会在一定程度上影响生成质量。如图9所示,随着去噪率的提高,生成的场景逐渐清晰。从表4的定量结果可以看出,增加去噪步骤总数可以在一定程度上提高生成精度。然而,token大小和信道数量对生成质量的影响要比对去噪步骤总数的影响大得多。

表4 不同尺度对去噪步骤和去噪率的定量分析。 f9676a48993b5af9d1a78dd48e160956.png f478a160be73a74e2309b200a22b27f9.png图9 不同轨迹或去噪步骤下去噪比的影响

5、结论与限制

在本文中,介绍了一个生成4D占用的框架,以模拟自动驾驶中的3D世界发展。使用4D场景标记器,获得了输入的密集表示,并实现了长序列占用视频的高质量重建。然后,学习时空表征的扩散转换器,并在轨迹提示的条件下生成4D占用。通过在nuScenes数据集上的实验,证明了场景进化的准确性。未来,将研究更精细的4D占用世界模型,探索闭环设置下端到端自动驾驶的可能性。

局限性。4D占用世界模型的优势在于建立了对场景和运动之间关系的理解。然而,由于体素数据粒度的限制,无法构建更精细的4D场景。生成结果还显示运动对象的细节不一致,可能是由于训练数据的小尺寸。

参考

[1] OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

ddd61650d011ab800303cd295a84d64d.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

91fc12e4f6f4fb766b08e584ad0b9b97.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

1c630cd0ebe05f202f15d1660fb6790c.jpeg

④【自动驾驶之心】全平台矩阵

d9b15abea70c063a34ce844d967d26c5.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值