Panoptic-FlashOcc:目前速度和精度最优的全景占用预测网络

作者 | Austin  编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/709393871

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心占用网络技术交流群

本文只做学术分享,如有侵权,联系删文

宣传一下小伙伴最新的工作Panoptic-FlashOcc,这是一种高效且易于部署的全景占用预测框架(基于之前工作FlashOcc),在Occ3DnuScenes上不仅取得了最快的推理速度,也取得了最好的精度。

  • 论文地址:https://arxiv.org/pdf/2406.10527v1

  • 论文单位:后摩智能、清华、中科大、大连理工

全景占用(Panoptic occupancy)提出了一个新的挑战,它旨在将实例占用(instance occupancy)和语义占用(semantic occupancy)整合到统一的框架中。然而,全景占用仍然缺乏高效的解决方案。在本文中,我们提出了Panoptic-FlashOcc,这是一个简单、稳健、实时的2D图像特征框架。基于FlashOcc的轻量级设计,我们的方法在单个网络中同时学习语义占用和类别感知的实例聚类,联合实现了全景占用。这种方法有效地解决了三维voxel-level中高内存和计算量大的缺陷。Panoptic-FlashOcc以其简单高效的设计,便于部署,展示了在全景占用预测方面的显著成就。在Occ3D-nuScenes基准测试中,它取得了38.5的RayIoU和29.1的mIoU,用于语义占用,运行速度高达43.9 FPS。此外,它在全景占用方面获得了16.0的RayPQ,伴随着30.2 FPS的快速推理速度。这些结果在速度和准确性方面都超过了现有方法的性能。源代码和训练模型可以在以下github仓库找到:https://github.com/ Yzichen/FlashOCC。

1. Introduction

全景占用在多视图感知中对自主机器人导航[10]、环境映射[27]和自动驾驶系统[2, 29, 30, 34]起着至关重要的作用。由于全景质量指标[19]的引入,它最近受到了极大的关注。全景占用将3D场景从视觉图像中划分为结构化的体素,每个体素都被分配了一个实例ID,其中“thing”类别中的每个体素都通过类别标签和实例ID来识别,而“stuff”类别中的体素仅用类别标签进行标记。

多视图3D全景占用仍然是一个新兴领域,并且仍然是一个开放的研究问题。由于其计算量大,到目前为止,只有一篇论文SparseOcc[19]以稀疏的方式解决了这个问题。3D全景占用在网络设计上提出了挑战,因为它将3D体素的分割分类为语义分割区域,同时也区分了个别实例。此外,全景占用在文章开头提到的领域中找到了其主要应用,所有这些领域都要求实时推理和高准确性,同时能够在各种边缘芯片上部署。这些挑战激励我们寻找一个更合适的架构,能够解决这些问题,并在不牺牲准确性的情况下实现快速推理速度。

受到2D图像全景分割中bottom-up范式成功的启发,在这种范式中,通常首先获得语义分割预测,然后对"thing"像素进行分组以形成聚类来识别实例[3, 7, 13, 26, 32],我们的目标是开发一个简单、有效且可部署的网络来处理全景占用。我们将语义占用与类别感知的实例聚类结合起来处理全景占用。为了确保在不牺牲准确性的情况下的推理速度,我们采用了FlashOcc[34]的架构来估计语义占用。FlashOcc利用通道到高度的转换有效地将扁平化的鸟瞰图(BEV)特征转换为3D占用预测,无需使用计算成本高昂的3D体素级表示。然后,我们结合了一个轻量级的中心度头,灵感来自Panoptic-DeepLab[3],以生成类别感知的实例中心。来自语义占用估计和中心度头的预测通过全景占用处理融合,以生成最终的全景占用。这导致了一种高效的自下而上的全景占用网络设计,我们称之为Panoptic-FlashOcc。

我们在具有挑战性的Occ3DnuScenes数据集上使用三个指标评估了我们的方法:RayIoU、mIoU和RayPQ。得益于其高效的设计,Panoptic-FlashOcc在没有花哨功能的情况下实现了最先进的性能,如图1所示。它以38.5的RayIoU、31.6的mIoU和16.0的RayPQ达到了最高性能,同时保持了35.6、35.6和30.2 FPS的推理速度。此外,在RayIoU方面,它在保持最快推理速度43.9 FPS的同时,达到了与最佳竞争者相当的性能。

2. Related Work

Panoptic segmentation. 自从Kirillov等人[13]引入全景分割以来,这一领域出现了众多努力。最初,对现有网络的调整包括添加语义[13]或实例分支[3]到最先进的模型,随后是手工制作的后处理技术[18, 31, 32]。随着Transformer集成到计算机视觉中,研究人员开始探索能够以更统一的方式处理全景分割任务的架构。MaskFormer[4]利用queries预测object masks和stuff masks。Mask2Former[5]引入了masked-attention,通过掩蔽图像中无关的部分,显著提高了对小物体的性能。虽然基于Transformer的方法与以前的模型相比显示出了优越的性能,但它们在各种边缘芯片上的部署方面提出了挑战。最近,高效的MaskConver[23]通过仅使用全卷积层学习"thing"和"stuff"类的实例中心,超越了上述基于Transformer的模型。这激励我们寻找一个高效且易于部署的模型,该模型仅以buttom-up的全卷积方式运行。

高效的全景占用。全景占用代表了一个新的方向,与全景分割的蓬勃发展相比,它仍然没有得到充分的探索。Sparseocc[19]是第一个也是唯一一个专注于提高全景质量和推理速度的研究。它使用A100 GPU提供了质量和延迟的报告。由于语义占用是全景占用的一个子任务,全景理解可以从语义占用中经验性地扩展,我们还探索了语义占用以识别具有高效架构的研究。许多工作[1, 16, 21, 29, 30]采用了密集的3D体素级表示来进行占用计算,尽管这需要计算3D卷积或Transformer模块。因此,一些研究旨在简化模型以减少计算时间。TPVFormer[12]提出使用三视角视图表示来补充垂直结构信息,其中体素级表示被简化。VoxFormer[15]利用稀疏到密集的MAE模块通过从透视图投射的稀疏查询完成占用。SparseOcc进一步以完全稀疏的方式优化占用预测[19]。

然而,上述所有方法都采用了3D体素级表示的范式来进行占用预测,不可避免地依赖于3D特征或Transformer模块。这种设计为在边缘芯片上部署它们提出了挑战,除了Nvidia的解决方案。FlashOcc[34]引入了一个channel-to-height模块,仅使用2D卷积将扁平化的BEV特征转换为3D语义占用预测,有着极高的运行效率和可部署性。

3. Architecture

在本节中,我们概述了如何利用所提出的实例中心将全景属性集成到语义占用任务中。我们首先在第3.1节提供架构的概述。然后,我们在第3.2节深入到占用头,它预测每个体素的分割标签。随后,在第3.3节中,我们详细阐述了中心度头,它被用来生成类别感知的实例中心。最后,在第3.4节中,我们描述了全景占用处理,它作为一个高效的后处理模块,用于生成全景占用。

1dab34ef9f4e26d6f4c1648649eab772.png

3.1. Overview Architecture

4ecd6dda3ed8b9029ca214f91fc100ab.png 14aba525fa70cc1482aec0fdb5315de7.png c3cab7efa954b7017d154df9d062479a.png

3.2. Semantic Occupancy Prediction

18e8f04863410b4993ba75b7d5f783e0.png

3.3. Centerness Head

我们框架中提出的centerness head,有两个目的:

  1. 加强不同物体之间的区别。通过生成更清晰的语义边界,centerness head作为辅助子模块,提高了语义占用分支的性能。在仅执行语义占用预测时,这种增强在推理过程中不需要任何额外的计算资源。随后的章节将讨论这一实证验证。

  2. 提供全景占用处理的实例中心的类别标签和3D位置。在城市场景中,“thing”对象通常在扁平化的鸟瞰图(BEV)感知中彼此分离,因此从BEV特征生成的“thing”中心与从3D体素特征中识别出的中心一致。

如图2底部中心块所示,中心度头包括中心回归头和中心热图头。两个模块都包含三个卷积层,搭配3×3的核心。

Center Heatmap Head. 中心点表示对于"thing"和"stuff"的重要性已在包括目标检测[9, 14, 25, 33]、实例分割[6]和全景分割[3, 23]等多项研究中得到广泛证明。在训练过程中,gt实例中心度值使用2D高斯分布进行编码,其标准差等于标注实例的对角线大小。focal loss被用来最小化预测的class-aware热力图与对应gt之间的差异。

3.4. Panoptic Occupancy Processing

全景占用处理模块充当实例标签的分配模块,设计得既简单又有效。它完全依赖于矩阵运算和逻辑运算,不包含任何可训练参数。这种设计使得全景占用处理的实现直接而高效。

894c27ec0ebf2770882135137d9f32b0.png a1beab931dcee3dbc070e91b5ea7751b.png 23a2526ef1c41989572fd8b974f81f07.png ba55df19139dc25d23c3164ef2ddd033.png ffdd0b8065e6c5438536de40a3d4ece6.png 7294c03508e6ab13d2ca81a15ebad111.png 507bf5889b335d8ce9f14eeb1490f64b.png 9bd17ebbd9966788ec1a5030816679d8.png 196437bb730e26feeb99b7a43a8ff089.png

4. Experiment

f8ad5c6e6c8a8b354aadde3dc6b44d53.png 571b726e0fc52e68afbc14119429f868.png

总结:本文介绍了Panoptic-FlashOcc,这是一种高效且易于部署的全景占用预测框架。它基于已建立的FlashOcc,通过整合centerness head和全景占用处理,将语义占用增强为全景占用。Panoptic-FlashOcc在具有挑战性的Occ3DnuScenes测试中不仅取得了最快的推理速度,也取得了最好的精度。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

bf9be207626ba4f08de5f29864309e2d.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3fa02df7c1f0e144845265971b3052d1.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

30823d9cdc50cad9df1e182289db0348.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

72f549a7f4c56626f3686885fd8ecfee.jpeg

④【自动驾驶之心】全平台矩阵

9f2b1a7c5c9a2f7d25111e2fb5477832.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值