经典文献阅读之--MUVO(自动驾驶带几何表征的多模态生成式世界模型)C780

0. 简介
学习无人监督的自动驾驶世界模型有可能显著提高当今系统的推理能力。然而,大多数工作忽略了世界的物理属性,只关注传感器数据。提出MUVO,一个具有几何体素表示的多模态世界模型。用原始相机和激光雷达数据来学习传感器不可知的世界几何表示,可以直接用于下游任务,如规划。在多模态的未来预测,几何表示改进了相机图像和激光雷达点云的预测质量。代码可以在Github上获取。

图1. 这个例子展示了MUVO对3D占据和摄像头以及激光雷达观测的高分辨率未来预测

1. 主要贡献
我们利用自动驾驶车队收集的大量未标记传感器数据。我们的世界模型以原始的高分辨率摄像头图像和激光雷达点云作为输入,并根据行动预测多模态未来观测。为了使我们的模型具有更深刻的环境理解,我们还学习了一种与传感器无关的世界的三维几何表示。
我们的贡献可以总结如下:
• 一种利用自动驾驶车辆多模态传感器设置的新颖的无监督生成世界模型,并对摄像头和激光雷达的未来预测进行预测。
• 一种学习传感器无关的可操作环境表示的新方法,以三维几何体素占用表示的形式呈现世界模型。
• 一种行动条件下的三维占用预测的新方法,拓展了现有技术水平。 

2. 方法
在这项工作中,我们提出了MUVO,一种具有几何体素表示的多模态世界模型。我们的模型利用自动驾驶车辆的高分辨率图像和激光雷达传感器数据,以预测原始相机和激光雷达数据,以及在多个步骤中基于动作条件的3D占据表示。
我们的模型包括三个阶段,如图2所示。首先,我们使用基于transformer的架构处理、编码和融合高分辨率RGB相机数据和激光雷达点云。其次,我们将传感器数据的潜在表示馈送到转换模型,以推导当前状态的概率模型,随后进行采样,同时预测未来状态的概率模型并从中进行采样。最后,我们从概率模型中解码当前和未来状态,预测原始RGB图像、点云和多帧未来的3D占据网格。
我们认为先前的世界模型主要学习数据中的模式,而不是对真实世界进行建模。我们的无监督学习传感器无关的几何占据表示的方法为模型提供了对物理世界的基本理解。

图2. MUVO概述。我们的模型由三个阶段组成,从左到右依次为:首先,对原始摄像头图像和激光雷达点云进行处理、编码和融合。然后,将得到的潜在表示输入到我们的转换模型中。在给定动作的条件下,预测未来状态。最后,将这些未来状态解码为3D占据网格、原始点云和原始RGB图像。

3. 观测编码器
3.1 输入表示 

4. 多模态融合 

点击 经典文献阅读之--MUVO(自动驾驶带几何表征的多模态生成式世界模型) - 古月居可查看全文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值