作者 | ZZZzz 编辑 | 汽车人
原文链接:https://zhuanlan.zhihu.com/p/634108340
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【占用网络】技术交流群
Title: Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
github: https://github.com/chaytonmin/Occ-BEV
发表单位: 北京大学
Abstract
现有的多摄像头算法主要依赖于单目图像预训练,这忽略了不同摄像头视角之间的空间和时间相关性。
为了解决这一局限性,我们提出了第一个多相机联合的 (multi-camera unified) 预训练框架,称为Occ-BEV,它将最初重建三维场景作为基础阶段,随后在下游任务中对模型进行微调。
具体来说,一个 3D decoder 利用多视角图像的鸟瞰图(BEV)特征来预测三维几何占用,使模型能够对三维环境有一个更全面的理解。Occ-BEV 的一个显著优势是,它可以利用大量未标记的 image-LiDAR 对进行预训练。所提出的 multi-camera unified 预训练框架在多摄像头三维物体检测和语义场景完成等关键任务中表现出令人鼓舞的结果。
与nuscenes数据集上的单目预训练方法相比,Occ-BEV在三维物体检测方面的mAP和NDS都有2.0%的明显改善,在 semantic scene completion 方面的mIOU也有0.8%的增加
1 Introduction
动机:
目前的多相机三维感知模型通常依赖于预先训练的 ImageNet 模型或单目图像的深度估计模型,这些模型未能考虑到多相机系统中固有的空间和时间相关性。
此外,虽然单目预训练增强了图像特征提取的能力,但它并没有充分解决后续任务的预训练要求。自动驾驶车辆收集了大量的 image-LiDAR 对,其中包含有价值的三维空间和结构信息。有效地利用这些未标记的 image-LiDAR 对,对提高自动驾驶系统的性能至关重要。
深度估计方法通常侧重于估计物体表面的深度,而忽略了物体和被遮挡元素的整体三维结构。对于360°多相机感知系统,可以采用三维几何占用网格来描述三维场景。实现精确的几何占有预测有助于提高多相机感知系统的整体三维感知精度。
我们提出了一种多相机的统一预训练方法,称为Occ-BEV。我们的方法利用了一个直观的概念,即利用多相机系统来重建三维场景作为 foundational stage,然后再对下游任务进行微调。
在多摄像头BEV感知的情况下,使用 LSS 或 Transformer 等将输入的多相机图像转换到BEV空间,然后加入一个几何占用率预测头geometric occupancy prediction head,帮助学习三维占用率分布,从而增强模型对周围三维场景的理解。
由于单帧点云的稀疏性,我们采用了多帧点云融合作为占用标签生 的真值。decoder 仅用于预训练,而预训练中训练好的模型被用来初始化 multi-camera perception models。通过设计有效的多机位统一学习方法,我们使预训练的模型能够利用未标记数据中固有的丰富的空间和时间信息。这不仅提高了模型理解复杂三维场景的能力,而且还减少了对昂贵和耗时的人工三维注释的依赖。
2 Related Work
介绍了 Multi-Camera 3D Perception 和 Self-supervised Learning
3 Methodology
![729fd52fca0e272432ff95712eee02d2.png](https://i-blog.csdnimg.cn/blog_migrate/f4012834ed8e4a1532985fa975980b80.png)
3.1 Review of BEV Perception
通过加入特定的检测头,可以在鸟瞰图上完成多样化的感知任务,但这些方法都没有考虑到从不同相机视角和帧中捕获的图像之间的相互作用和相关性。因此 ,缺乏一个多相机统一的预训练模型。
3.2 Multi-camera Unified Pre-training
对于多相机系统来说,精确的三维占用网格预测有利于提高感知的准确性。
3.2.1 Geometry Occupancy Decoder
![a28a942c28ca49c39604b8f62cbdbfec.png](https://i-blog.csdnimg.cn/blog_migrate/b42c2df4a0bd2825d53a9d3c187c1dc6.png)
![52acbee9785d64a1a1b899d28c9cb309.png](https://i-blog.csdnimg.cn/blog_migrate/957a6539da7189139ac20e1249c75ae2.png)
3.2.2 Pre-training Target
考虑到单帧LiDAR点云的稀疏性,以及由于动态物体的存在,融合大量帧所产生的潜在不准确性,我们融合了一些关键帧的LiDAR点云作为占用标签生成的计算源。
![c321f0edc686a8e0405e11be1b3a5b01.png](https://i-blog.csdnimg.cn/blog_migrate/cb36bbbddc5b8f8b2e709c61e4994ac9.png)
![041b64c00d9591e28f955ed1c598ec6e.png](https://i-blog.csdnimg.cn/blog_migrate/39a2559e1b6309ba533b4f405bd5ed68.png)
![b5bfb0a3e201ff7c4fbe915a4cf4196c.png](https://i-blog.csdnimg.cn/blog_migrate/913279b59baf3b2dc245cfb856cfa6c9.png)
![9d92fc48019038fc9862c1bdcfef9abf.png](https://i-blog.csdnimg.cn/blog_migrate/b513a66c414dc558147ceae7872f691e.png)
![3705369a8ed295389a2b08162780aa7b.png](https://i-blog.csdnimg.cn/blog_migrate/fb6becb49df9e64731afe03e4a4d78ac.png)
3.2.3 Pre-training for Semantic Occupancy Prediction
我们建议将我们的多相机统一预训练算法扩展到周围语义场景的完成任务中,即首先进行几何占用预测,然后对周围语义场景的完成任务进行微调。
3.3 Comparision with Existing Methods
3.3.1 Comparision with Monocular Pre-training
![c7517fc2ae34d41200f1e24b368871a7.png](https://i-blog.csdnimg.cn/blog_migrate/37a16ad60bb6d44762da6abbc6776247.png)
如图1所示,我们提出的多相机统一预训练模型比单目预训练有几个优势:
(1) Spatial-Temporal Integration:通过利用多个相机视角的空间和时间信息,该模型可以更好地理解环境的动态性质,并做出更准确的预测。
(2) Unified Representation:统一的预训练方法使模型能够在不同的摄像机视图中学习一个共享的表征,促进更好的知识转移,减少对特定任务预训练的需要 。
(3) Perception of occluded areas:单目深度估计只能预测物体的表面位置,而所提出的 multi-camera unified 预训练方法能够对被遮挡的物体进行整体三维重建。
3.3.2 Comparision with Knowledge Distillation
我们独特的预训练算法消除了对注释或预训练LiDAR检测模型的需要, 大大降低了3D注释的要求。
4 Experiments
4.1 Experimental Setup
我们模型中的 occupancy decoder 由两层三维卷积层组成。关于参数设置的更多详细信息,请参考关于 DETR3D[3]、BEVFormer[4]、BEVDet[5]和BEVDepth[6]的论文。所有的实验都是使用8 个A40 GPU卡进行的。
4.2 Results on Downstream Tasks
4.2.1 Multi-Camera 3D Object Detection
我们首先对Occ-BEV在单目验证集上的表现进行了评估。
![039ff0aab5442e9ea4d9bd58a7fbfc16.png](https://i-blog.csdnimg.cn/blog_migrate/77e53a81d5a0c9d62520ce30568e64a3.png)
我们在图3中展示了BEVFormer[4]的收敛曲线。我们的multi-camera unified 预训练在第2个历时中明显增强了BEVFormer [4],实现了NDS的4%的增长。这表明我们的multi-camera unified 预训练方法从全局角度提供了准确的物体位置信息。
![3e736d91fc7fd308fa5bf347b4f91299.png](https://i-blog.csdnimg.cn/blog_migrate/80251b59d25ad03c9fb4a2db4f54d0a1.png)
我们在nuscenes测试集上进行了额外的实验,以验证我们提出的multi-camera unified 预训练方法通过三维场景重建与基于单目深度估计的预训练相比的有效性。如表2所示。
![26a86b85652f50ad4a6e4aa85f8bcd2e.png](https://i-blog.csdnimg.cn/blog_migrate/27e3270b4221afef7772823ce4823d01.png)
4.2.2 Multi-Camera Semantic Occupancy Prediction
![20a6f5c44c162ad53afc4bf1b3e25284.png](https://i-blog.csdnimg.cn/blog_migrate/b8e5548a1f090a40105d283e3d317cd0.png)
如表3所示,在 Occ-3D[35] 测试集上,与 BEVDet4D[40]相比,我们的算法在mIOU方面取得了0.8%的改进,突出了我们的方法在解决多相机语义占用网格预测的复杂性方面的有效性。
4.3 Ablation Studies
4.3.1 Data-efficient Learner
结果如图4所示,当Occ-BEV用75%的有标签数据进行训练时,它取得了与在完整数据集上训练的 BEVFormer 相同的性能。
![16af9bc16d7cb1275e4e81f0c60ef1a2.png](https://i-blog.csdnimg.cn/blog_migrate/3e7ec1346c668ae114aa01726d859336.png)
此外,即使只有25%的样本可供微调,我们的Occ-BEV模型在mAP上也比 BEVFormer 高出1%,这突出了其显著的数据效率和减少对昂贵的人类标注的三维数据的依赖的潜力。
4.3.2 Multi-frame Fusion
我们的比较包括单帧融合、3帧融合和5帧融合(包括相应的非关键帧 ),结果列于表4。
![615e8bf1d60e6e5a1ba484cfc2e832f3.png](https://i-blog.csdnimg.cn/blog_migrate/94d42bd52de45c2a94c42366a32f0c0c.png)
很明显,模型的准确性最初随着融合点云数量的增加而提高,但之后开始下降。这一发现表明,融合多帧点云可以提高预训练模型的有效性。然而,需要注意的是,由于动态物体的存在,过多的融合帧会引入不确定性。这种不确定性会导致融合过程中的错误,并随后降低模型的准确性。
4.3.3 Explicit Supervision
在点云融合过程中,可以利用标记的三维数据来单独处理动态物体,从而为多帧融合提供更精确的占用网格真值。随后,我们研究了显式占用网格预测对模型性能的影响 。表6中的重新结果表明,与BEVFormer[4]相比,纳入显式监督导致mAP和NDS的明显改善,即3%。
![33a9586ae370387a662698db326073ec.png](https://i-blog.csdnimg.cn/blog_migrate/35bab2eddcc365565cb5a42d7d1034fe.png)
此外,与无标签的多帧融合点云预训练相比,mAP有1%的提高。这些发现突出了利用标记数据进行明确的占用网格预测监督的潜力。更重要的是,它们进一步支持了这样的观点:占用网格预测使模型能够学习整个三维场景的数据分布,从而提高下游任务的准确性。
4.4 Qualitative Evaluation
如图5所示,我们展示了几个重建的三维场景。可以看出,由于点云的稀疏性,使用单帧点云作为占用网格生成的监督 导致不完整的重建。另一方面,使用三个关键帧及其对应的非关键帧(共约20帧)作为监督信息,可以更完整地重建静态场景。此外,车辆等动态物体也可以精确重建。
![a437f15bea4811b3cecf6ec0fe969c32.png](https://i-blog.csdnimg.cn/blog_migrate/a29ce3276fe35b9701995821eb2fe19c.png)
Limitations:
(1) decoder 中的 3D convolutions 限制了它对需要高分辨率占用重建的任务的适用性。我们将探索 cascade refine 策略。
(2) 目前,我们依靠LiDAR来获得真值占用网格。未来,我们将探索使用NeRF和MVS算法,仅从图像中重建三维场景并获得真值。
(3) 动态目标会导致不准确的真值,这可以用动态物体检测算法来解决
5 Conclusion
我们定义了 multi-camera unified 预训练的任务,并提出了第一个unified pre-training 算法,该算法在各种 自主驾驶任务中表现出了卓越的性能,如多摄像头3D物体检测和周视语义场景完成。通过三维场景重建的预训练为增强统一表征学习和减少对注释的三维数据的依赖提供了很好的机会。未来的工作应侧重于解决所提到的局限性,并进一步提高我们的方法在现实世界自 主驾驶场景中的性能和适用性。
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码免费学习)
![69714fc3f60f85928747bb2dc72a5ffa.png](https://i-blog.csdnimg.cn/blog_migrate/ff6cbe90f22725ac546ae23deaee5d08.png)
② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
![2001d172fc8f00b4de110cd544cc0a56.png](https://i-blog.csdnimg.cn/blog_migrate/19a2309ed819517b27bc93902f6f26c8.png)
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、Occupancy、多传感器融合、大模型、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)