世界模型大一统?清华&复旦提出OccLLaMA:首个用于自动驾驶多任务的具身世界模型...

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华&复旦最新的工作—OccLLaMA!首个用于自动驾驶多任务的生成世界模型来了!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心世界模型技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

近年来,整合了语言、图像、音频等各种模态的多模态大语言模型取得了重大的突破,极大的加快了具身人工智能领域技术的发展。虽然相关研究成果取得了较为不错的进展,但是能够处理现实世界中多项任务的通用智能体还并未出现。这本质上是因为现有的多模态大型语言模型通过学习的方式从感知到动作的直接映射来执行相应动作,忽略了世界的动态特性以及运动与世界动态之间的关系。相比之下,人类拥有使他们能够基于3D内部视觉表征模拟未来状态并据此规划行动的视觉模型。因此,探索如何构建智能体的世界模型对于具身智能的进步至关重要。

自动驾驶作为具身人工智能的一项非常具有代表性的应用,在世界范围内得到了广泛的讨论和研究,但是目前的自动驾驶世界模型专注于传感器相关的任务,如点云、视觉以及栅格预测任务,无法同时实现预测场景演变、语言推理和与现实世界的交互等内容。因此,我们希望提出一个能够统一视觉、语言和动作的模型,具有类似人类的能力。

考虑到最近提出的栅格预测网络可以作为一种通用的3D视觉任务,更加准确的描述细粒度的3D结构,同时还包含了高级语义信息,非常适合对齐空间和语义。同时,基于自回归语言模型的视觉生成的可行性已得到彻底验证,其性能可与扩散模型相当。

因此,在本文中,我们提出了统一的3D占用-语言-动作生成世界模型,该模型统一了VLA相关任务,包括但不限于场景理解、规划和 4D占用预测,我们将提出的模型称之为OccLLaMA,其整体效果如下图所示。

96b25cbde5412a331afeae571e0f569c.jpeg
OccLLaMA支持包括场景理解和推理、4D占用预测和运动规划

网络模型的整体架构&细节梳理

在详细介绍本文提出的OccLLaMA算法模型之前,下图展示了OccLLaMA算法模型的整体网络结构。

1523a2596501de7efd89eb046f2fb40d.jpeg
OccLLaMA算法模型的整体网络结构

通过上图可以看出,OccLLaMA算法模型的核心组件包括Scene Tokenizer、Occupancy-Language-Action生成世界模型以及为了实现多任务引入的三阶段训练方案。具体而言,为了使OccLLaMA具有理解和生成视觉模态的能力,我们选择Occupancy作为通用的视觉表示,并引入一种新颖的Scene Tokenizer来有效地构建离散场景词汇,同时考虑到稀疏性和类别不平衡。通过结合场景词汇、语言词汇和动作词汇,我们为VLA任务构建了一个统一的多模态词汇,为在一个模型中集成VLA奠定了基础。

Scene Tokenizer

受到点云处理任务的启发,我们在编码器当中引入了一种稀疏的编码策略。同时我们将非占用类别与其他语义类别分离,从而实现更高效的场景重建。

编码器

我们用来代表原始的场景,我们将3D场景划分成了稠密的体素,同时每个体素被分配了一个语义标签。然后,通过将空的体素进行丢弃,并将占用体素表示为沿着BEV方向排列的一维伪点云集合,将原始的场景稀疏化为。每个点是一个高为同时语义标签为的向量。然后,我们使用pillars embedding来聚合伪点云的特征信息,并且采用了swin-transformer中的模块来获得BEV特征图,其中是降采样的比例,是特征维度大小。

量化

为了获得离散的表示,我们接下来通过矢量量化将转换为codebook的集合。可学习的codebook包含了个向量,每个向量的维度为。整个量化过程可以用下面的公式进行描述

6e081845613c27554b5d6b1ef6b07306.jpeg
解码器

由于量化后BEV的特征图中的高度信息丢失,解码器通过堆叠卷积块和上采样层来恢复密集的3D体素特征。具体来说,为了解决类别不平衡问题,我们分别实例化轻量级体素头和分类头,以解码占用的几何和语义信息。值得注意的是,体素头为分类头提供了一个占用掩码,使我们能够仅监督占用体素的语义。

Generative World Model

统一词汇

使用scene tokenizer,可以将占用场景映射并展平为一个序列,其中允许与原始LLM中的类似语言词汇进行联合表示。具体而言,我们首先表示场景token为作为索引序列,其中对应于场景标记的代码索引号。

因此,我们建立了一个场景词汇,由于使用一般的LLM输出细粒度的数值结果并不容易,我们根据轨迹集合的统计数据,将航路点的坐标经验性地划分为N个bin,并将航路点映射到最近的bin中,用于构建动作词汇。除此之外,我们添加了几个特殊的功能化token,比如$,,来代表模态的边界;$来辅助下一个场景的预测。

通过这种方式,我们建立了一个统一的occupancy-language-action词汇来构建各种任务,其中输入和输出可以是三种模式之一或者三种模式的混合,这具体取决于要解决的具体任务类型。

场景预测

我们观察到语言和动作都是时间序列,这使得这些序列中的token自然适合具有原始的因果掩码和下一个token预测机制的时间注意力。具体而言,我们在与场景token对应的位置实现空间注意力,以更好地捕捉场景内的空间关系。相应地,我们初始化可学习的场景查询用于预测整个完整的场景,从而实现场景内token之间的更好交互并显著减少推理时间。在算法1中,详细解释了执行场景预测机制的算法流程,如下图所示。

fba29860f9d8a27d36ae10099aefdc6d.jpeg
场景预测的整体算法流程
训练阶段

我们的训练方案包括三个阶段,分别是scene tokenizer的训练过程,3D Occupancy-Language-Action的预训练过程,以及指令微调过程。

  • scene tokenizer的训练过程:我们首先专注于场景codebook的学习,以将占用率表示为离散的标记,并计算相关的loss损失进行优化。在优化后,scene tokenizer在整个流程的后续阶段始终保持不变。

  • 3D Occupancy-Language-Action的预训练过程:在这个阶段,我们专注于对齐occupancy-language-action。我们使用世界模型目标和场景标题目标进行全参数预训练,前者监督占用和动作之间的对齐以学习世界的演变,后者监督占用和语言之间的对齐以学习3D场景的语义理解。

  • 指令微调过程:在这个阶段,我们根据LoRA针对不同场景理解和规划任务的提示指令对模型进行微调。

实验结果&评价指标

为了展示我们提出的算法模型在4D占用预测、运动规划以及视觉问答任务中的性能,我们分别针对三个任务展开了一系列的相关实验。

4D占用预测任务

4D占用预测任务旨在根据一些历史占用输入预测未来的3D占用场景。具体来说,我们使用2秒的历史帧信息来预测接下来的3秒,并使用 mIoU和IoU作为主要的评估指标。相关的实验结果统计在下表当中。

0785962920ca67c0b0338717f6c281bb.jpeg

我们在两种设置下将提出的OccLLaMA与最先进的方法OccWorld进行了比较:一种是使用真实3D占用信息(-O),另外一种是使用基于相机模型FBOCC的预测结果(-F)。

首先,我们观察到我们的scene tokenizer展现出了卓越的场景重建能力。此外,我们提出的OccLLaMA可以在1秒内实现了具有竞争力的预测结果,并且在更长时间内明显优于OccWorld算法模型,凸显了我们提出的算法模型其更强的长期预测能力。

此外,OccLLaMA-F可以被视为端到端的检测流程,因为它以相机为输入。尽管任务很复杂,但OccLLaMA始终表现出强大的预测性能。为了更加直观的展示我们算法模型的有效性,我们也进行了相关的可视化,如下图所示。

218069c10423909c03c052d6d878c975.jpeg
4D栅格预测任务的可视化结果
运动规划任务

我们将提出的OccLLaMA算法模型的运动规划能力与利用各种输入和监督的几个强基线算法模型进行了比较,相关的实验结果如下表所示。

5bfc0e72607cd56b7770fa758330190e.jpeg

我们还将提出的算法模型与OccWorld算法模型在不同设置下进行了比较,例如4D占用率预测任务中的设置。我们观察到UniAD算法模型提供了最佳的表现性能,而监督标记限制了其对大规模数据集的可扩展性。作为替代方案,OccLLaMA仅依靠3D语义占用就实现了具有竞争力的表现性能,展示了其作为自动驾驶基础模型的扩展潜力。与使用占用作为输入的方法相比,OccLLaMA的表现明显优于OccNet算法模型,进一步凸显了其自回归架构的优越性。此外,超越自回归的最先进的方法OccWorld算法模型,也从侧面证明了我们提出各个模块的有效性。此外,通过集成现有方法实现的卓越性能,展示了我们方法的通用性。值得注意的是,输出轨迹而不交替场景预测会导致性能下降,这表明世界模型范式具有更大的潜力。

视觉问答任务

据我们所知,我们是第一个利用占用数据和文本指令作为输入并在自动驾驶中实现一系列3D任务的多模态大型语言模型。我们选择在NuScenes-QA基准上最先进的算法模型Lidar-LLM,作为我们的主要比较基线。此外,我们分别使用深度图像和原始图像作为输入,在 NuScenes-QA基准上评估了强大的2D LLM。我们使用Top-1准确度指标评估模型的性能,并对不同类型的问题进行单独评估。

为了确保公平性,我们在LLaMA2-7b下实现了我们的整体算法模型,这是与LiDAR-LLM和LLaVA相同的基础模型。相关的实验结果汇总在如下的表格当中。

c6fc7de62fe70e5eb03284e4a3cbb911.jpeg

我们观察到提出的OccLLaMA算法模型总体上提供了最佳的表现性能。与LiDAR-LLM相比,提出的OccLLaMA算法模型可以更好地捕获3D空间中的语义信息,这对于与目标相关的问题至关重要。此外,OccLLaMA算法模型将空间信息作为输入,并自然地对齐语义和空间数据,这对涉及空间关系的问题很有帮助。

相关消融对比实验

此外我们也对提出的各个模块进行了相关的消融对比实验,用于验证我们提出的各个模块的有效性。

下表展示了不同超参数对scene tokenizer重建性能的影响,包括空间分辨率、特征维度和codebook的大小。

5d6e1ba8933f850869f4b3b40d1f312b.jpeg

较大的codebook会导致算法模型的过度拟合和codebook的利用率下降。较小的codebook和特征维度无法有效地模拟场景分布。分辨率与重建能力呈正相关,影响最为显著。然而,分辨率越大,重建场景所需的token数量就越多,从而增加了预测的负担。

我们也比较了生成模型的不同组成部分对预测和规划性能的影响,相关实验结果汇总在下表当中。

6fec2394f084c5de8dbc27c3eb1988c3.jpeg

没有空间注意力意味着一个场景中的标记基于扁平序列顺序保持其原始因果注意力。没有动作token化意味着航点由原始语言词汇中的标记连接而成。通过实验结果可以看出,使用特定于动作的标记,而不是依赖语言词汇,可以提高预测和规划的性能。这种改进可以归因于特定于动作的标记保留了航点的物理先验,同时避免了语言词汇中的归纳偏差。此外,我们发现使用空间注意力来模拟场景内的空间依赖关系对于预测至关重要。然而,它会导致规划性能略有下降,我们将其归因于空间注意力在局部扰乱了全局因果注意力。

结论

在本文中,我们提出了OccLLaMA算法模型,一种用于多任务的自动驾驶3D占用语言动作生成世界模型。通过对4D占用预测、运动规划和视觉问答等任务的大量实验,实验数据结果证明了我们提出的OccLLaMA算法模型在多任务上的有效性。未来,我们将增加数据多样性,以进一步增强OccLLaMA算法模型的功能。

参考

[1] OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

9f928ad4d8a1070f7372729c015e8638.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

fa77c383e86c78e4471faa4f32540415.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

8112875c225704d17d164bb6cc7721da.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

f2d0170df46bd72c5ff9fb1fb72f916e.jpeg

④【自动驾驶之心】全平台矩阵

4cc6f60a7e156971bda25c3c997b5cf1.png

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值