当NeRF遇上Occ | OccNeRF：完全无需激光雷达数据监督（清华最新）

最新推荐文章于 2024-05-06 18:29:03 发布

自动驾驶之心

最新推荐文章于 2024-05-06 18:29:03 发布

阅读量453

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247579710&idx=1&sn=0913b46ac59da3faebe48e033e776033&chksm=cf5280991d30cc9b9b8aaa1056e65b37c842ac7013abad680db1d7bffb333e7906f78052b20e&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

>>点击进入→自动驾驶之心【占用网络】技术交流群

写在前面&笔者的个人总结

近年来，3D 占据预测（3D Occupancy Prediction）任务因其独特的优势获得了学界及业界的广泛关注。3D 占据预测通过重建周围环境的 3D 结构为自动驾驶的规划和导航提供详细信息。然而，大多数现有方法依赖 LiDAR 点云生成的标签来监督网络训练。在 OccNeRF 工作中，作者提出了一种自监督的多相机占据预测方法。该方法参数化的占据场（Parameterized Occupancy Fields）解决了室外场景无边界的问题，并重新组织了采样策略，然后通过体渲染（Volume Rendering）来将占用场转换为多相机深度图，最后通过多帧光度一致性（Photometric Error）进行监督。此外，该方法利用预训练的开放词汇语义分割模型（open vocabulary semantic segmentation model）生成 2D 语义标签对模型进行监督，来赋予占据场语义信息。

论文链接：https://arxiv.org/pdf/2312.09243.pdf
代码链接：https://github.com/LinShan-Bin/OccNeRF

OccNeRF问题背景

近年来，随着人工智能技术的飞速发展，自动驾驶领域也取得了巨大进展。3D 感知是实现自动驾驶的基础，为后续的规划决策提供必要信息。传统方法中，激光雷达能直接捕获精确的 3D 数据，但传感器成本高且扫描点稀疏，限制了其落地应用。相比之下，基于图像的 3D 感知方法成本低且有效，受到越来越多的关注。多相机 3D 目标检测在一段时间内是 3D 场景理解任务的主流，但它无法应对现实世界中无限的类别，并受到数据长尾分布的影响。

3D 占据预测能很好地弥补这些缺点，它通过多视角输入直接重建周围场景的几何结构。大多数现有方法关注于模型设计与性能优化，依赖 LiDAR 点云生成的标签来监督网络训练，这在基于图像的系统中是不可用的。换言之，我们仍需要利用昂贵的数据采集车来收集训练数据，并浪费大量没有 LiDAR 点云辅助标注的真实数据，这一定程度上限制了 3D 占据预测的发展。因此探索自监督 3D 占据预测是一个非常有价值的方向。

详解OccNeRF算法

下图展示了 OccNeRF 方法的基本流程。模型以多摄像头图像作为输入，首先使用 2D backbone 提取 N 个图片的特征，随后直接通过简单的投影与双线性插值获 3D 特征（在参数化空间下），最后通过 3D CNN 网络优化 3D 特征并输出预测结果。为了训练模型，OccNeRF 方法通过体渲染生成当前帧的深度图，并引入前后帧来计算光度损失。为了引入更多的时序信息，OccNeRF 会使用一个占据场渲染多帧深度图并计算损失函数。同时，OccNeRF 还同时渲染 2D 语义图，并通过开放词汇语义分割模型进行监督。

Parameterized Occupancy Fields

Parameterized Occupancy Fields 的提出是为了解决相机与占据网格之间存在感知范围差距这一问题。理论上来讲，相机可以拍摄到无穷远处的物体，而以往的占据预测模型都只考虑较近的空间（例如 40 m 范围内）。在有监督方法中，模型可以根据监督信号学会忽略远处的物体；而在无监督方法中，若仍然只考虑近处的空间，则图像中存在的大量超出范围的物体将对优化过程产生负面影响。基于此，OccNeRF 采用了 Parameterized Occupancy Fields 来建模范围无限的室外场景。

OccNeRF 中的参数化空间分为内部和外部。内部空间是原始坐标的线性映射，保持了较高的分辨率；而外部空间表示了无穷大的范围。具体来说，OccNeRF 分别对 3D 空间中点的坐标做如下变化：

其中为坐标，，是可调节的参数，表示内部空间对应的边界值，也是可调节的参数，表示内部空间占据的比例。在生成 parameterized occupancy fields 时，OccNeRF 先在参数化空间中采样，通过逆变换得到原始坐标，然后将原始坐标投影到图像平面上，最后通过采样和三维卷积得到占据场。

Multi-frame Depth Estimation

为了实现训练 occupancy 网络，OccNeRF选择利用体渲染将 occupancy 转换为深度图，并通过光度损失函数来监督。渲染深度图时采样策略很重要。在参数化空间中，若直接根据深度或视差均匀采样，都会造成采样点在内部或外部空间分布不均匀，进而影响优化过程。因此，OccNeRF 提出在相机中心离原点较近的前提下，可直接在参数化空间中均匀采样。此外，OccNeRF 在训练时会渲染并监督多帧深度图。

下图直观地展示了使用参数化空间表示占据的优势。（其中第三行使用了参数化空间，第二行没有使用。）

Semantic Label Generation

OccNeRF 使用预训练的 GroundedSAM (Grounding DINO + SAM) 生成 2D 语义标签。为了生成高质量的标签，OccNeRF 采用了两个策略，一是提示词优化，用精确的描述替换掉 nuScenes 中模糊的类别。OccNeRF中使用了三种策略优化提示词：歧义词替换（car 替换为 sedan）、单词变多词（manmade 替换为 building, billboard and bridge）和额外信息引入（bicycle 替换为 bicycle, bicyclist）。二是根据 Grounding DINO 中检测框的置信度而不是 SAM 给出的逐像素置信度来决定类别。OccNeRF 生成的语义标签效果如下：

OccNeRF实验结果

OccNeRF 在 nuScenes 上进行实验，并主要完成了多视角自监督深度估计和 3D 占据预测任务。

多视角自监督深度估计

OccNeRF 在 nuScenes 上多视角自监督深度估计性能如下表所示。可以看到基于 3D 建模的 OccNeRF 显著超过了 2D 方法，也超过了 SimpleOcc，很大程度上是由于 OccNeRF 针对室外场景建模了无限的空间范围。

论文中的部分可视化效果如下：

3D 占据预测

OccNeRF 在 nuScenes 上 3D 占据预测性能如下表所示。由于 OccNeRF 完全不使用标注数据，其性能与有监督方法仍有差距。但部分类别（如 drivable surface 与 manmade）已达到与有监督方法可比的性能。

文中的部分可视化效果如下：

总结

在许多汽车厂商都尝试去掉 LiDAR 传感器的当下，如何利用好成千上万无标注的图像数据，是一个重要的课题。而 OccNeRF 给我们带来了一个很有价值的尝试。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）