世界模型大一统？清华&复旦提出OccLLaMA：首个用于自动驾驶多任务的具身世界模型...

最新推荐文章于 2024-09-09 09:47:53 发布

自动驾驶之心

最新推荐文章于 2024-09-09 09:47:53 发布

阅读量328

点赞数 7

文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/CV_Autobot/article/details/142094294

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华&复旦最新的工作—OccLLaMA！首个用于自动驾驶多任务的生成世界模型来了！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『世界模型』技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

近年来，整合了语言、图像、音频等各种模态的多模态大语言模型取得了重大的突破，极大的加快了具身人工智能领域技术的发展。虽然相关研究成果取得了较为不错的进展，但是能够处理现实世界中多项任务的通用智能体还并未出现。这本质上是因为现有的多模态大型语言模型通过学习的方式从感知到动作的直接映射来执行相应动作，忽略了世界的动态特性以及运动与世界动态之间的关系。相比之下，人类拥有使他们能够基于3D内部视觉表征模拟未来状态并据此规划行动的视觉模型。因此，探索如何构建智能体的世界模型对于具身智能的进步至关重要。

自动驾驶作为具身人工智能的一项非常具有代表性的应用，在世界范围内得到了广泛的讨论和研究，但是目前的自动驾驶世界模型专注于传感器相关的任务，如点云、视觉以及栅格预测任务，无法同时实现预测场景演变、语言推理和与现实世界的交互等内容。因此，我们希望提出一个能够统一视觉、语言和动作的模型，具有类似人类的能力。

考虑到最近提出的栅格预测网络可以作为一种通用的3D视觉任务，更加准确的描述细粒度的3D结构，同时还包含了高级语义信息，非常适合对齐空间和语义。同时，基于自回归语言模型的视觉生成的可行性已得到彻底验证，其性能可与扩散模型相当。

因此，在本文中，我们提出了统一的3D占用-语言-动作生成世界模型，该模型统一了VLA相关任务，包括但不限于场景理解、规划和 4D占用预测，我们将提出的模型称之为OccLLaMA，其整体效果如下图所示。

OccLLaMA支持包括场景理解和推理、4D占用预测和运动规划

网络模型的整体架构&细节梳理

在详细介绍本文提出的OccLLaMA算法模型之前，下图展示了OccLLaMA算法模型的整体网络结构。

OccLLaMA算法模型的整体网络结构

通过上图可以看出，OccLLaMA算法模型的核心组件包括Scene Tokenizer、Occupancy-Language-Action生成世界模型以及为了实现多任务引入的三阶段训练方案。具体而言，为了使OccLLaMA具有理解和生成视觉模态的能力，我们选择Occupancy作为通用的视觉表示，并引入一种新颖的Scene Tokenizer来有效地构建离散场景词汇，同时考虑到稀疏性和类别不平衡。通过结合场景词汇、语言词汇和动作词汇，我们为VLA任务构建了一个统一的多模态词汇，为在一个模型中集成VLA奠定了基础。

Scene Tokenizer

受到点云处理任务的启发，我们在编码器当中引入了一种稀疏的编码策略。同时我们将非占用类别与其他语义类别分离，从而实现更高效的场景重建。

编码器

我们用来代表原始的场景，我们将3D场景划分成了稠密的体素，同时每个体素被分配了一个语义标签。然后，通过将空的体素进行丢弃，并将占用体素表示为沿着BEV方向排列的一维伪点云集合，将原始的场景稀疏化为。每个点是一个高为同时语义标签为的向量。然后，我们使用pillars embedding来聚合伪点云的特征信息，并且采用了swin-transformer中的模块来获得BEV特征图，其中是降采样的比例，是特征维度大小。

量化

为了获得离散的表示，我们接下来通过矢量量化将转换为codebook的集合。可学习的codebook包含了个向量，每个向量的维度为。整个量化过程可以用下面的公式进行描述

解码器

由于量化后BEV的特征图中的高度信息丢失，解码器通过堆叠卷积块和上采样层来恢复密集的3D体素特征。具体来说，为了解决类别不平衡问题，我们分别实例化轻量级体素头和分类头，以解码占用的几何和语义信息。值得注意的是，体素头为分类头提供了一个占用掩码，使我们能够仅监督占用体素的语义。

Generative World Model

统一词汇

使用scene tokenizer，可以将占用场景映射并展平为一个序列，其中允许与原始LLM中的类似语言词汇进行联合表示。具体而言，我们首先表示场景token为作为索引序列，其中对应于场景标记的代码索引号。

因此，我们建立了一个场景词汇，由于使用一般的LLM输出细粒度的数值结果并不容易，我们根据轨迹集合的统计数据，将航路点的坐标经验性地划分为N个bin，并将航路点映射到最近的bin中，用于构建动作词汇。除此之外，我们添加了几个特殊的功能化token，比如$，，来代表模态的边界；$来辅助下一个场景的预测。

通过这种方式，我们建立了一个统一的occupancy-language-action词汇来构建各种任务，其中输入和输出可以是三种模式之一或者三种模式的混合，这具体取决于要解决的具体任务类型。

场景预测

我们观察到语言和动作都是时间序列，这使得这些序列中的token自然适合具有原始的因果掩码和下一个token预测机制的时间注意力。具体而言，我们在与场景token对应的位置实现空间注意力，以更好地捕捉场景内的空间关系。相应地，我们初始化可学习的场景查询用于预测整个完整的场景，从而实现场景内token之间的更好交互并显著减少推理时间。在算法1中，详细解释了执行场景预测机制的算法流程，如下图所示。

场景预测的整体算法流程

训练阶段

我们的训练方案包括三个阶段，分别是scene tokenizer的训练过程，3D Occupancy-Language-Action的预训练过程，以及指令微调过程。

scene tokenizer的训练过程：我们首先专注于场景codebook的学习，以将占用率表示为离散的标记，并计算相关的loss损失进行优化。在优化后，scene tokenizer在整个流程的后续阶段始终保持不变。
3D Occupancy-Language-Action的预训练过程：在这个阶段，我们专注于对齐occupancy-language-action。我们使用世界模型目标和场景标题目标进行全参数预训练，前者监督占用和动作之间的对齐以学习世界的演变，后者监督占用和语言之间的对齐以学习3D场景的语义理解。
指令微调过程：在这个阶段，我们根据LoRA针对不同场景理解和规划任务的提示指令对模型进行微调。

实验结果&评价指标

为了展示我们提出的算法模型在4D占用预测、运动规划以及视觉问答任务中的性能，我们分别针对三个任务展开了一系列的相关实验。

4D占用预测任务

4D占用预测任务旨在根据一些历史占用输入预测未来的3D占用场景。具体来说，我们使用2秒的历史帧信息来预测接下来的3秒，并使用 mIoU和IoU作为主要的评估指标。相关的实验结果统计在下表当中。

我们在两种设置下将提出的OccLLaMA与最先进的方法OccWorld进行了比较：一种是使用真实3D占用信息(-O)，另外一种是使用基于相机模型FBOCC的预测结果(-F)。

首先，我们观察到我们的scene tokenizer展现出了卓越的场景重建能力。此外，我们提出的OccLLaMA可以在1秒内实现了具有竞争力的预测结果，并且在更长时间内明显优于OccWorld算法模型，凸显了我们提出的算法模型其更强的长期预测能力。

此外，OccLLaMA-F可以被视为端到端的检测流程，因为它以相机为输入。尽管任务很复杂，但OccLLaMA始终表现出强大的预测性能。为了更加直观的展示我们算法模型的有效性，我们也进行了相关的可视化，如下图所示。

4D栅格预测任务的可视化结果

运动规划任务

我们将提出的OccLLaMA算法模型的运动规划能力与利用各种输入和监督的几个强基线算法模型进行了比较，相关的实验结果如下表所示。

我们还将提出的算法模型与OccWorld算法模型在不同设置下进行了比较，例如4D占用率预测任务中的设置。我们观察到UniAD算法模型提供了最佳的表现性能，而监督标记限制了其对大规模数据集的可扩展性。作为替代方案，OccLLaMA仅依靠3D语义占用就实现了具有竞争力的表现性能，展示了其作为自动驾驶基础模型的扩展潜力。与使用占用作为输入的方法相比，OccLLaMA的表现明显优于OccNet算法模型，进一步凸显了其自回归架构的优越性。此外，超越自回归的最先进的方法OccWorld算法模型，也从侧面证明了我们提出各个模块的有效性。此外，通过集成现有方法实现的卓越性能，展示了我们方法的通用性。值得注意的是，输出轨迹而不交替场景预测会导致性能下降，这表明世界模型范式具有更大的潜力。

视觉问答任务

据我们所知，我们是第一个利用占用数据和文本指令作为输入并在自动驾驶中实现一系列3D任务的多模态大型语言模型。我们选择在NuScenes-QA基准上最先进的算法模型Lidar-LLM，作为我们的主要比较基线。此外，我们分别使用深度图像和原始图像作为输入，在 NuScenes-QA基准上评估了强大的2D LLM。我们使用Top-1准确度指标评估模型的性能，并对不同类型的问题进行单独评估。

为了确保公平性，我们在LLaMA2-7b下实现了我们的整体算法模型，这是与LiDAR-LLM和LLaVA相同的基础模型。相关的实验结果汇总在如下的表格当中。

我们观察到提出的OccLLaMA算法模型总体上提供了最佳的表现性能。与LiDAR-LLM相比，提出的OccLLaMA算法模型可以更好地捕获3D空间中的语义信息，这对于与目标相关的问题至关重要。此外，OccLLaMA算法模型将空间信息作为输入，并自然地对齐语义和空间数据，这对涉及空间关系的问题很有帮助。

结论

在本文中，我们提出了OccLLaMA算法模型，一种用于多任务的自动驾驶3D占用语言动作生成世界模型。通过对4D占用预测、运动规划和视觉问答等任务的大量实验，实验数据结果证明了我们提出的OccLLaMA算法模型在多任务上的有效性。未来，我们将增加数据多样性，以进一步增强OccLLaMA算法模型的功能。

参考

[1] OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

7
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
世界模型大一统？清华&复旦提出OccLLaMA：首个用于自动驾驶多任务的具身世界模型...

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享清华&复旦最新的工作—OccLLaMA！首个用于自动驾驶多任务的生成世界模型来了！如果您有相关工作需要分享，请在文末联系我们！自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询>>点击进入→自动驾驶之心『世界模型』技术交流群编辑...
复制链接

扫一扫