即插即用!长安&复旦LMPOcc:长期记忆先验实现Occ新SOTA~

作者 | Shanshuai Yuan 来源 |  深蓝AI

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『占用网络』技术交流群

本文只做学术分享,如有侵权,联系删文


导读

在基于视觉的自动驾驶感知算法当中,3D语义占用预测任务可以出色的对静态场景和动态目标同时进行建模,实现细粒度的场景理解,目前受到了来自学术界和工业界的广泛关注。

论文题目:LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals

论文作者:Shanshuai Yuan, Julong Wei, Muer Tie, Xiangyun Ren, Zhongxue Gan, Wenchao Ding

论文地址:https://arxiv.org/pdf/2504.13596

在自动驾驶车辆实际行驶过程中,可能会在不同时间点多次行驶经过相同的地理坐标位置。但由于天气条件、光照变化和遮挡等动态环境因素的影响,自动驾驶感知算法的预测结果会出现显著的差异。因此,从当前位置的历史信息中获取感知结果作为先验知识,能够提供重要的概率约束,以缓解当前时间观测窗口内实时传感器观测的不足。

现有的感知算法通常采用BEV特征对齐、自注意力机制或者3D卷积来实现级联帧的信息融合,如图1(a)所示。但这类方法依旧无法解决当遇到严重遮挡或光照不足等具有挑战性的观测条件时,检测性能仍然不理想的问题,因为当前和相邻的观测都受到共同挑战条件的影响。

图1:3D占用预测任务中不同时序融合算法对比

在这种情况下,利用在有利观测条件下从同一位置收集的历史感知信息可以有效解决这一限制。因此,将长期记忆先验整合到3D占用预测中至关重要。

结合上述分析,本文提出了长期记忆先验占用算法,一种通过利用不同时间戳下同一空间位置的历史感知信息,将跨时间长期记忆先验融入3D占用预测的算法框架。在Occ3D-nuScenes数据集上的实验结果表明LMPOcc算法能够有效提升3D占用预测任务的性能,并实现了SOTA的结果。

本文主要贡献如下:

  • 本文提出了LMPOcc算法模型,首个利用从相同地理位置的历史感知输出中生成的长期记忆先验的3D占用预测方法。

  • 本文开发了一种即插即用的架构,该架构通过长期记忆先验增强局部感知,同时构建全局占用表示。

  • 在Occ3D-nuScenes基准上实验表明,LMPOcc实现了SOTA的性能,尤其在静态语义类别上表现突出。此外,LMPOcc展示了通过多车众包构建全局占用的能力。

本文提出的LMPOcc算法模型的整体网络结构如图2所示。整体可以看出LMPOcc通过融入长期记忆占用先验模块LMOP来扩展占用预测模型。

图2:LMPOcc算法模型的整体网络结构图

具体而言,该算法框架的输入包括环视图像以及自车由局部到全局坐标的转换关系。输入的环视图像通过Occupancy Encoder完成图像特征编码,随后这些特征被送入到LMOP模块中用于获得增强的占用逻辑结果,随后这些结果通过Occupancy Decoder进行处理得到最终的3D语义占用预测。

长期记忆占用先验


在LMOP模块中,全局占用采用稀疏地图块结构,每个块在几何上与物理坐标对齐,并且初始化为空状态。稀疏地图块结构通过仅存储可通行的城市区域来降低内存使用量。其基于坐标的索引方式允许车辆根据需求加载特定地图区域,消除了存储整个城市地图的需求。对于每一个块而言,作者迭代更新全局占用表示。

考虑到BEV形式的先验信息降低了存储成本并提高了局部和全局索引的效率,局部和全局的先验特征被表示为BEV形式。

此外,本文为了对齐局部和全局占用的对应关系,通过卷积层对齐先验和当前特征通道,然后将当前特征与先验特征融合,以增强局部感知。增强的感知输出作为更新的先验,替换全局占用中相应的先验特征。

当前先验融合

当前先验融合模块包括两个分支,分别是拼接分支和基于元素相加分支。拼接分支将当前特征 和先验特征 形成结合特征,如下公式所示。

基于元素相加的分支,通过如下的方式得到二者基于元素相加的结果。

两个分支得到的特征进行拼接,并通过Sigmoid激活函数得到一个张量 ,如下所示。

该张量充当一个加权因子用于动态的调节当前特征和先验特征在融合过程中的贡献程度。


模型无关先验格式


先验信息以占用逻辑值的形式存储,确保全局占用率先验信息在部署期间不受任何特定占用率预测模型的影响。为了避免在先验中存储可见区域之外的噪声,本文采用相机可见性掩码来保留占用逻辑单元可观察区域内的内容。

相机可见性掩码是通过从每个已占用体素中心向相机原点投射射线来确定的。沿着每条射线,第一个相交的已占用体素被标记为“已观察”,而同一射线上的后续体素则被标记为“未观察”。任何未与这些射线相交的体素都会自动被分配“未观察”状态。

本文在Occ3D-nuScenes数据集上验证提出算法的有效性,并且采用mIoU标准作为评价算法模型实验效果的指标。

图3展示了在Occ3D-nuScenes数据集上LMPOcc与其他SOTA算法模型的比较结果汇总。

图3:Occ3D-nuScenes数据集不同算法模型的结果对比

通过实验结果可以看出,在具有相似实验条件的情况下,LMPOcc-S和LMPOcc-L算法模型均超过其他算法,实现了最优的检测性能。

为了更加直观的展示本文提出算法模型的有效性,本文将不同算法模型的感知结果进行了可视化,如图4所示。

图4:LMPOcc和DHD算法模型的感知结果可视化

此外,本文提出的LMPOcc算法模型作为一种即插即用的模块可以集成到其他Occupancy算法模型中,图5展示了将LMOP分别集成到FlashOcc以及DHD算法中的实验结果。通过实验结果可以看出,LMOP持续提升了Occupancy算法模型的感知性能。

图5:集成LMOP的不同算法模型实验结果

本文中作者也通过消融实验的方式来验证所提出的不同模块的效果,如图6所示。

图6:消融实验结果汇总

通过实验结果可以看出,本文提出的各类模块均能一致提升算法模型的感知性能。

本文提出的LMPOcc算法模型在全局占用地图的结果如图7所示,在增强局部感知能力的同时,LMPOcc算法模型能够构建大规模的场景占用表示。

图7:全局占用地图可视化结果

图8展示了通过众包协作构建全局占用图的示意图。

图8:基于众包方式构建全局占用示意图



本文提出了一种新颖的3D占用预测框架LMPOcc,该框架有效利用历史信息中的长期记忆先验来提升局部感知性能,同时构建统一的全局占用表示。这使其能够通过众包方式实现城市级占用地图的构建。在Occ3D-nuScenes数据集上的实验结果表明,LMPOcc 在局部占用预测中实现了SOTA的感知性能。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值