占用网格杀疯了！斯坦福新作LOPR：自动驾驶的自监督多未来Occupancy预测！

最新推荐文章于 2024-09-12 15:22:07 发布

3Ｄ视觉工坊

最新推荐文章于 2024-09-12 15:22:07 发布

阅读量203

点赞数

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247696726&idx=3&sn=03059ddce90ad7c0679f618a07ebc82c&chksm=faa36d822f843f294917e6dadfac0f76b049ec44921fb5bf19c3d58eda20764256ac432805fe&scene=126&sessionid=0

版权

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

在城市环境中，自动驾驶汽车（AV）导航离不开精准的环境预测算法。经验丰富的驾驶员能够理解场景语义并识别其他代理的意图，从而预测其轨迹并安全到达目的地。为了在自动驾驶汽车中复制这一过程，人们提出了许多环境预测方法，采用了不同的环境表示和建模假设。

现代自动驾驶汽车系统由专家设计的模块和学习模块混合而成，如三维物体检测、跟踪和运动预测，这些模块都是独立开发的。对于学习系统而言，其开发过程涉及使用人类标注者和其他感知系统提供的精心策划的标签。在环境推理方面，常采用基于对象的预测算法，该算法依赖于感知系统来创建具有定义好的代理和环境特征的场景的矢量化表示。然而，这种方法存在多重局限性。首先，它通常为每个单独的代理生成边缘化的未来轨迹，而不是包括代理交互在内的整体场景预测，这增加了与规划模块的集成难度。其次，这种方法没有考虑传感器测量，仅依赖于可能在次优条件下失效的对象检测算法。第三，依赖于来自人类标注者和感知系统的标记数据，限制了数据集的大小并增加了成本。这些缺点使自动驾驶汽车系统容易受到连锁故障的影响，并可能导致在不可预见的场景中出现泛化能力差的问题。这些局限性凸显了需要不依赖易出错且成本高昂的标注方案的互补环境建模方法。

为了应对这些挑战，基于激光雷达（LiDAR）测量生成的占用网格图（L-OGM）作为一种预测场景表示形式，已经变得越来越流行。其流行的原因在于它们所需的数据预处理工作极少，无需手动标注，能够模拟具有任意数量代理的场景的联合预测，并且对部分可观测性和检测失败具有鲁棒性。我们专注于使用不确定性感知占用状态估计方法生成的以自我为中心的L-OGM预测。由于其通用性和能够利用未标记数据进行扩展的能力，我们假设L-OGM预测与RGB视频预测一样，也可以作为自动驾驶的无监督预训练目标，即基础模型。

L-OGM预测任务通常被构建为自监督序列到序列的学习问题。由于ConvLSTM架构能够处理时空序列，因此之前的工作主要使用ConvLSTM架构来完成这项任务。这些方法在网格单元空间中进行端到端的优化，没有考虑场景中存在的随机性，并忽略了其他可用模式，例如车辆周围的RGB相机、地图和规划轨迹。因此，这些方法往往会产生不切实际且模糊的预测结果。

在这项工作中，我们针对先前方法的局限性，提出了一种在生成模型的潜在空间内运行的随机L-OGM（Layered Occupancy Grid Maps，分层占用网格图）预测框架。生成模型以提供压缩表示同时产生高质量样本而闻名。通过使用生成模型，我们可以最小化表示中的冗余，从而使预测网络能够专注于任务的最关键方面。

在基于L-OGM训练的潜在空间内，我们的框架采用了一种基于自回归Transformer的架构，该架构包括确定性解码器和变分解码器模型。这两个模块都根据过去的L-OGM编码以及可用的其他模态（如相机图像、地图和计划轨迹）进行条件设置。预测通过单步解码器进行解码，该解码器可实时提供高质量的预测，并且可以选择性地使用基于扩散的批量解码器进行细化。基于扩散的批量解码器解决了与单步解码器相关的时序一致性问题，并通过以前置光栅化L-OGM为条件来减轻压缩损失，但牺牲了实时可行性。

在nuScenes和Waymo Open Dataset上的实验表明，与基线方法相比，我们的方法在定量和定性方面均有所提升。我们的框架能够预测多样化的未来场景，并推断出未观察到的代理。此外，它还利用其他传感器模式进行更准确的预测，例如，在激光雷达占用网格图（L-OGM）的可见区域之外，通过摄像头捕捉到迎面而来的车辆。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving

作者：Bernard Lange, Masha Itkina, Jiachen Li, Mykel J. Kochenderfer

机构：斯坦福大学、加利福尼亚大学

原文链接：https://arxiv.org/abs/2407.21126

2. 摘要

在动态环境中，环境预测框架对于自动驾驶车辆（Autonomous Vehicles, AVs）的安全导航至关重要。激光雷达（Light Detection and Ranging, LiDAR）生成的占用网格图（L-OGMs）为场景表示提供了一个稳健的鸟瞰视角，能够在展现对部分可观测性和感知检测失败的适应性的同时，实现自监督联合场景预测。先前的方法主要集中在网格单元空间内的确定性L-OGM预测架构上。虽然这些方法取得了一些成功，但它们经常产生不切实际的预测，并且无法捕捉环境的随机性。此外，它们没有有效地整合自动驾驶车辆中存在的其他传感器模式。我们提出的框架在生成架构的潜在空间中执行随机L-OGM预测，并允许根据RGB相机、地图和规划轨迹进行条件设置。我们使用单步解码器或基于扩散的批量解码器来解码预测，其中单步解码器可以实时提供高质量的预测，而基于扩散的批量解码器可以进一步细化解码帧，以解决时间一致性问题并减少压缩损失。我们在nuScenes和Waymo Open数据集上的实验表明，我们方法的所有变体在定性和定量上都优于先前的方法。

3. 效果展示

4. 主要贡献

我们的贡献包括：

• 我们引入了一个名为潜在占用预测（LOPR）的框架，用于在生成模型的潜在空间中进行随机L-OGM预测，该预测以其他传感器模式（如RGB摄像头、地图和规划的自动驾驶汽车轨迹）为条件。

• 我们提出了一种基于变分的Transformer模型，该模型能够捕捉周围场景的随机性，同时保持实时可行性。

• 我们定义了一个基于扩散的批量解码器，用于细化单帧解码器输出，以解决时间一致性问题并减少压缩损失。

• 通过在nuScenes和Waymo Open Dataset上进行实验，我们证明了LOPR的所有变体均优于先前的L-OGM预测方法。

5. 基本原理是啥？

我们提出了潜在占用预测（LOPR）框架，旨在以L-OGM（Log-Odds Grid Maps，对数几率网格图）的形式生成随机场景预测。该模型将任务分为（1）学习L-OGM表示和（2）在生成模型的潜在空间中进行预测。在表示学习阶段，训练了一个VAE-GAN（变分自编码器-生成对抗网络）来学习L-OGM的潜在空间。在预测阶段，我们的框架采用了一种基于自回归Transformer的架构，该架构结合了确定性解码器模型和变分解码器模型。在每个时间步，从变分Transformer中抽取一个样本，然后将其传递给确定性Transformer以预测下一个L-OGM嵌入。预测基于过去的L-OGM编码和其他可用模态，如相机图像、地图和规划轨迹。地图和规划轨迹的编码器与预测框架一起训练，而对于图像编码器，我们使用了基于预训练的DINOv2模型。预测通过单步解码器进行解码，该解码器可实时提供高质量的预测，并且可以选择性地通过基于扩散的批量解码器进行细化。图2总结了该框架。

6. 实验结果

总体性能：我们将本文的框架与表II中的基线方法进行了比较。数据集增强、随机性、额外模态和扩散解码器的集成均对性能提升做出了显著贡献。在两个数据集上，LOPR（局部占用预测器）均优于先前的方法，并且随着预测范围的扩大，性能提升变得更加明显。我们在图5和图6中展示了预测范围扩展到3.0秒（超出训练时使用的预测范围）的预测示例。我们的框架生成了高质量且逼真的预测结果，支持了定量结果，同时保持了实时可行性。它模拟了未来代理位置的多模态分布，并利用额外的模态来收集周围环境的信息，特别是超出L-OGM（局部占用网格图）可观测区域的信息，以进行准确预测。这包括正确推断环境的静态部分（如道路布局和停放的车辆）以及动态部分（如摄像头和地图中可见但未在观测到的L-OGM中捕获的迎面驶来的车辆）（见图5）。

随机性：在存在大量部分可观测性的挑战性场景中，我们的框架可以推断出假设的代理。在图7中，我们通过仅基于L-OGM观测结果的条件模型中的预测样本来展示了这一点。我们的框架捕捉了观测到的代理的不同运动速率，并推断出了先前未观测到的代理的进入。变分模块实现了对观测到和未观测到的多代理行为的多未来推理。

7. 总结 & 未来工作

在本文中，我们提出了一种自监督的L-OGM（局部占用网格图）预测框架，该框架能够捕捉场景的随机性，并基于自动驾驶车辆中可用的多模态观测数据进行条件约束。LOPR（局部占用预测器）框架由两部分组成：一个基于VAEGAN（变分自编码器生成对抗网络）的生成模型，该模型从可用的传感器模态中学习一个具有表现力的低维潜在空间；以及一个基于Transformer的随机预测网络，该网络在该学习到的潜在空间上运行。我们的实验表明，LOPR在定性和定量上都优于先前的方法，同时保持了实时可行性。此外，我们还通过引入扩散解码器对该框架进行了扩展，以解决时间一致性问题并减轻部分压缩损失，尽管这以牺牲实时可行性为代价。在未来的工作中，我们将探索将LOPR扩展到执行3D占用预测，并将其应用于其他任务，如遮挡推断和路径规划。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理：cv3d008

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。