Waabi最新 | UnO:用于感知和预测的无监督占用场

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心OCC技术交流群

编辑 | 自动驾驶之心

原标题:UnO: Unsupervised Occupancy Fields for Perception and Forecasting
论文链接:https://arxiv.org/pdf/2406.08691
项目链接:https://waabi.ai/uno/
作者单位:Waabi 多伦多大学

904653e8c5240d5b2b7052f2b9014768.png

论文思路:

感知世界并预测其未来状态是自动驾驶中的一项关键任务。监督方法利用带标注的物体标签来学习世界模型——传统上通过目标检测和轨迹预测,或时序鸟瞰视角(BEV)占用场。然而,这些标注代价高昂,且通常仅限于一组预定义的类别,无法涵盖我们在道路上可能遇到的所有情况。相反,本文通过从LiDAR数据中进行自监督学习,来感知和预测一个连续的4D(时空)占用场。这个无监督的世界模型可以轻松且有效地转移到下游任务中。本文通过添加一个轻量级的学习渲染器来处理点云预测,并在Argoverse 2、nuScenes和KITTI数据集中实现了最先进的性能。为了进一步展示其可迁移性,本文微调本文的模型用于BEV语义占用预测,并显示其在标注数据稀缺时,优于全监督的最先进方法。最后,与之前最先进的时空几何占用预测方法相比,本文的4D世界模型在识别与自动驾驶相关的物体类别上实现了更高的召回率。

论文设计:

为了让自动驾驶车辆(SDV)能够有效且安全地规划其行动,它必须能够感知环境并预测其未来的演变。为了执行这两项任务,已经发展了两种范式。最常见的方法是检测场景中的一组离散物体,然后预测每个物体的可能未来轨迹 [5, 8, 11, 20, 21, 25, 35, 37, 39]。最近,鸟瞰视角(BEV)语义占用场 [1, 6, 15, 27, 31, 34] 变得流行起来,因为它们避免了对置信度分数进行阈值处理,并且更好地表示了对未来运动的不确定性。

这些方法利用来自人工标注的监督来学习世界模型。不幸的是,它们的性能受限于人工标注的规模和表达能力。由于这些标签的成本高昂,可用的标注数据量比未标注数据的量级要小得多。此外,这些标签通常局限于一组预定义的物体类别,并且物体形状用3D边界框来近似,对于许多类别来说,这是一个非常粗糙的近似。因此,罕见事件和不常见的物体很少包含在标注数据中,限制了当前自动驾驶系统的安全性。

这促使本文开发能够利用大量未标注传感器数据来学习世界表示的方法。先前的工作提出直接从过去的点云预测未来的点云 [28, 36, 38, 40]。然而,这使得任务变得不必要地困难,因为模型不仅必须学习世界模型,还必须学习传感器的外参和内参以及LiDAR的属性,如光线反射率,这是一种复杂的材料和入射角(materials and incidence angle)函数。为了解决这个问题,4D-OCC [23] 提出了利用已知的传感器内参和外参来学习未来的几何占用体素网格。然而,该方法受限于使用量化的体素网格和通过回归优化光密度的LiDAR深度渲染目标。正如本文的实验所示,这导致模型在学习世界动态时遇到困难。此外,所学习的表示是否对点云预测以外的下游任务有用仍然未知。

本文的目标是学习一个能够利用大规模未标注LiDAR数据的世界模型,并且能够轻松且有效地迁移到下游感知和预测任务中。为此,本文提出了一项新的无监督任务:从LiDAR观测中预测连续的4D(3D空间和时间)占用场(图1.a)。这一目标适合于学习通用表示,因为准确预测时空占用场需要理解世界的几何结构(例如,预测部分遮挡物体的形状)、动态(例如,预测移动物体未来的位置)和语义(例如,理解道路规则)。重要的是,本文采用了一种隐式架构,使本文的模型能够在空间和未来时间的任何连续点(x, y, z, t)进行查询。本文称之为UNO(UNsupervised Occupancy)的世界模型,能够学习常识性概念,例如物体的完整范围,即使输入的LiDAR数据只能看到物体的一部分。预测具有相关不确定性的多模态未来的能力也随之而来;例如,UNO可以预测一辆车可能会或不会变道,而行人可能会留在人行道上或进入人行横道。

为了展示本文的世界模型的通用性和有效性,本文展示了它可以迁移到两个重要的下游任务:点云预测(图1.b)和监督的BEV语义占用预测(图1.c)。对于点云预测,UNO通过在占用预测的基础上学习一个简单的光线深度渲染器,超越了Argoverse 2、nuScenes和KITTI中的最先进方法。对于BEV语义占用预测,本文展示了微调UNO能够优于完全监督的方法,特别是在可用于训练的标签有限时,这种改进尤为显著,展示了令人印象深刻的少样本泛化能力。

c8db294046629b4c4cbff1e18b5d938c.png

图1. 本文展示了UNO,这是一种世界模型,能够从未标注数据中学习预测随时间变化的3D占用情况(a)。该模型可以轻松且有效地迁移到下游任务,如点云预测(b)和鸟瞰视角语义占用预测(c)。

581b332e58b80940e6058c44c741017f.png

图2. UNO的占用伪标签:从传感器位置 在时间 发射的激光束返回点 ,这意味着射线段 是未占用空间,而在激光返回后一个缓冲区 内的段是占用空间 。

c7d139b1bb9d60caaef99f13ed34af2f.png

图3. 本文的方法UNO的概述。过去的LiDAR数据被体素化并编码成一个BEV特征图,该特征图被隐式占用解码器用来预测查询点的占用情况。在训练过程中,查询点和占用伪标签是从未来的LiDAR数据生成的。在推理时,模型可以在任意点进行查询。有关查询生成过程的详细信息,请参阅图2。

实验结果:

0224da95f88d52af3827c7fef955c464.png

图4. UNO在两个不同示例上的可视化。本文标注了以下值得注意的观察:(A) 右转车辆的预测,(B) 仅从LiDAR数据的部分视角观察到的物体范围,(C) 移动车辆的预测,其中扩展的占用表示对未来加速度的不确定性,(D) 对人行道上行走行人的预测,(E) 预测车辆绕过停放的汽车进行变道,(F) 对变道车辆的持久点云预测,(G) 感知小物体如锥形标。

c9fa9bd9670618db6bfbeda07d3a6bad.png

图5. BEV语义占用结果。微调UNO与最先进的监督方法在不同监督规模下的对比。

c1943b4462d0d3f4205018bf0debb2f1.png

图6. 微调后的UNO的BEV语义占用预测。本文可视化了地图以提供上下文,但这不是模型的输入。A:准确感知场景中拥挤的区域,B:预测左转结束,显示出隐式地图理解,C:对移动物体进行准确的未来预测。

59191401ec661d80987e34d50073336a.png

图7. 在Argoverse 2传感器数据集上的无监督占用召回率比较,结果在预测时间范围内取平均值。召回率是在0.7的精度下计算的。∗表示最稀有的25%的类别,†表示按边界框体积计算最小的25%的类别。

总结:

本文提出了UNO,这是一种强大的无监督占用世界模型,能够从过去的LiDAR数据中预测4D几何占用场。为了解决这个问题,本文利用未来点云所隐含的占用作为监督,来训练一个可以在任意连续的 (x, y, z, t) 点上查询的隐式架构。UNO不仅能够从未标注数据中实现对世界几何、动态和语义的出色理解,而且也能够有效且轻松地迁移到执行下游任务。为了展示这一能力,本文证明了UNO在点云预测和有监督的BEV语义占用预测任务上优于最先进的方法。本文希望UNO和未来在无监督世界模型方面的工作能够为自动驾驶带来更高的安全性,特别是对脆弱和稀有道路使用者。

引用:

Agro B, Sykora Q, Casas S, et al. UnO: Unsupervised Occupancy Fields for Perception and Forecasting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 14487-14496.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

8d257d539c00953f57253a62c6b152c1.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

f5154b18436bf641a6a9223c666dc248.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

a074cd737b1515aeb258d21fa8da873c.jpeg

④【自动驾驶之心】全平台矩阵

609509a2fa80247a757300ece21df413.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值