经典文献阅读之--MUVO(自动驾驶带几何表征的多模态生成式世界模型)C780

最新推荐文章于 2024-10-04 22:36:54 发布

古-月

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量668

点赞数 7

文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/hcx25909/article/details/139169061

版权

0. 简介
学习无人监督的自动驾驶世界模型有可能显著提高当今系统的推理能力。然而，大多数工作忽略了世界的物理属性，只关注传感器数据。提出MUVO，一个具有几何体素表示的多模态世界模型。用原始相机和激光雷达数据来学习传感器不可知的世界几何表示，可以直接用于下游任务，如规划。在多模态的未来预测，几何表示改进了相机图像和激光雷达点云的预测质量。代码可以在Github上获取。

图1. 这个例子展示了MUVO对3D占据和摄像头以及激光雷达观测的高分辨率未来预测

1. 主要贡献
我们利用自动驾驶车队收集的大量未标记传感器数据。我们的世界模型以原始的高分辨率摄像头图像和激光雷达点云作为输入，并根据行动预测多模态未来观测。为了使我们的模型具有更深刻的环境理解，我们还学习了一种与传感器无关的世界的三维几何表示。
我们的贡献可以总结如下：
• 一种利用自动驾驶车辆多模态传感器设置的新颖的无监督生成世界模型，并对摄像头和激光雷达的未来预测进行预测。
• 一种学习传感器无关的可操作环境表示的新方法，以三维几何体素占用表示的形式呈现世界模型。
• 一种行动条件下的三维占用预测的新方法，拓展了现有技术水平。

2. 方法
在这项工作中，我们提出了MUVO，一种具有几何体素表示的多模态世界模型。我们的模型利用自动驾驶车辆的高分辨率图像和激光雷达传感器数据，以预测原始相机和激光雷达数据，以及在多个步骤中基于动作条件的3D占据表示。
我们的模型包括三个阶段，如图2所示。首先，我们使用基于transformer的架构处理、编码和融合高分辨率RGB相机数据和激光雷达点云。其次，我们将传感器数据的潜在表示馈送到转换模型，以推导当前状态的概率模型，随后进行采样，同时预测未来状态的概率模型并从中进行采样。最后，我们从概率模型中解码当前和未来状态，预测原始RGB图像、点云和多帧未来的3D占据网格。
我们认为先前的世界模型主要学习数据中的模式，而不是对真实世界进行建模。我们的无监督学习传感器无关的几何占据表示的方法为模型提供了对物理世界的基本理解。