国科大提出BEV-Voxel：自动驾驶中占用预测的快速准确方法！

自动驾驶之心

于 2024-07-28 00:01:33 发布

阅读量4

点赞数

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247619982&idx=4&sn=a65e8f9fd5fa6ec889bb8e0e50725e9e&chksm=cf68b93c53240ef97f89f876e1a715505d6d77b4d9221b0eef19bf7b8f899926be705df2ffa1&scene=126&sessionid=0

版权

作者 | AI 驾驶员编辑 | 智驾实验室

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『占用网络』技术交流群

本文只做学术分享，如有侵权，联系删文

占用预测在自动驾驶（AD）中扮演着至关重要的角色，因为它具有细粒度的几何感知和通用目标识别能力。然而，现有的方法往往会产生较高的计算成本，这与AD的实时需求相矛盾。

为此，作者首先评估了大多数公开可用方法的速度和内存使用情况，旨在将重点从单纯优先考虑准确度转向同时考虑效率。接着，作者确定了一个在实现快速和准确性能方面的核心挑战：几何与语义之间的强烈耦合。

为了解决这个问题，作者采取了以下措施：

作者提出了一个几何-语义双分支网络（GSDBN），采用混合的鸟瞰图（BEV）- Voxel 表示。在BEV分支中，引入了BEV Level 的时序融合模块和U-Net编码器以提取密集的语义特征。在 Voxel 分支中，作者提出了一种大核重新参数化的3D卷积来细化稀疏的3D几何并减少计算量。此外，作者还提出了一个新颖的BEV- Voxel 提升模块，它将BEV特征投影到 Voxel 空间以实现两个分支的特征融合。
除了网络设计之外，作者还提出了一个几何-语义解耦学习（GSDL）策略。该策略最初使用准确的几何 GT 深度学习语义，然后逐渐混合预测的深度以使模型适应预测的几何。在广泛使用的Occ3D-nuScenes基准上的大量实验证明了作者方法的优势，它实现了39.4 mIoU的准确度，同时保持了20.0 FPS的处理速度。与CVPR2023 3D占用预测挑战赛的获胜者FB-OCC相比，这个结果大约快了3倍，并且mIoU提高了1.9。

1 Introduction

基于视觉的占用预测[1]利用 ego 车辆的环视摄像头图像来估计 Voxel 空间内的物体占用和语义。与3D目标检测[15, 22, 37]相比，它提供了更细粒度的3D场景感知，并产生了一种无需激光雷达的替代方案。此外，通过确定网格单元内的物体存在，占用预测模型可以有效识别一般物体，有效处理词汇外和异常障碍物。

尽管具有这些优势，现有方法通常受限于较低的计算速度和较高的内存使用，这是由于3D Voxel 特征的高计算成本所致。这些限制阻碍了它们在配备车载GPU的自动驾驶车辆中的应用。为了将重点从单纯优先考虑准确性转向同时考虑部署友好性，作者对大多数可用的公共方法进行了广泛的速度和内存使用评估。

图1：占用预测方法在Occ3D-nuScenes[32]基准上的推理速度（FPS）和准确性（mIoU）。GSD-Occ在实时性方面具有明显的准确性优势。

通过对现有方法的广泛回顾和评估，作者确定了一个实现快速和准确性能的核心挑战：几何与语义之间的强烈耦合。如图2所示，几何预测（深度）作为2D到3D特征投影的输入，并影响下游的语义分类。因此，预测深度的不准确会破坏特征的判别力，并增加优化难度。为了解决这个问题，作者提出从网络设计和学习策略两个角度解耦几何学习和语义学习。

在网络设计方面，现有方法主要依赖重的3D网络[11, 24]同时细化几何结构并学习语义知识。然而，3D网络的高计算成本对于实时方法是难以承受的。最近，一些研究[10, 38]将3D Voxel 特征压缩为鸟瞰图（BEV）特征以提高效率，但它们通常无法达到满意的准确度（例如，图1中的FastOcc[10]），因为BEV表示丧失了高度信息[24]。因此，采用结合了BEV表示的计算效率和 Voxel 表示的几何完整性的混合BEV- Voxel 表示，既是自然而然的，也是大有希望的。为此，作者提出了一个基于两种原则指导的几何-语义双分支网络（GS-DBN）：“稀疏几何”和“密集语义”。在BEV分支中，作者采用了具有U-Net[29]结构的鸟瞰图 Level 时间融合和一个2D语义编码器来提取密集的语义特征。在 Voxel 分支中，作者提出了一个具有重参化3D大核卷积的3D几何编码器，它通过增强感受野来细化稀疏的几何结构，并通过重参化技术减少计算量。为了融合两个分支的特征，作者提出了一个BEV- Voxel 提升模块，它沿着高度维度将鸟瞰图 Level 的语义特征投影到 Voxel 空间，从而有效地恢复丢失的高度信息。

关于学习策略，继Lift-Splat-Shoot (LSS) [26]之后，几乎所有现有方法都直接使用预测深度进行2D到3D视角转换。然而，它们忽略了预测深度并不总是准确，尤其是在训练的早期阶段，这加剧了耦合问题，并导致优化不稳定。受到语言模型[2, 27, 28]的启发，这些模型提供顺序的 GT 标记来预测下一个标记，作者在训练期间用 GT 深度替换预测深度进行2D到3D视角转换。然而，当在测试中使用预测深度时，这种策略表现不佳，因为模型没有适应预测深度，并且无法校正预测几何中的错误。为此，作者引入了一种几何-语义解耦学习（GSDL）策略。最初，作者使用 GT 深度进行2D到3D视角转换，以保持准确的几何结构，便于进行孤立的语义学习。逐渐地，作者将 GT 深度与预测深度混合，使模型能够学习细化预测的几何形状。通过解耦几何细化与语义知识的学习，作者有效地降低了优化难度，在不产生额外部署成本的情况下实现了进一步的准确度提升。

作者的贡献可以总结如下：

作者对大多数公开可用的方法的速度和内存使用进行了广泛评估，旨在将关注点从单纯优先考虑准确度转向同时考虑部署友好性。
作者提出了一种双分支网络，采用混合BEV- Voxel 表示，将稀疏几何学习和密集语义学习分离，确保了计算效率和几何完整性。
作者提出了一种新颖的学习策略，以解耦几何细化和语义知识的学习，这在各种预训练模型和方法中均实现了稳定的准确度提升。
作者提出了GSD-Occ，一种几何-语义解耦占用预测器，为实时占用预测建立了新的技术水平，实现了39.4 mIoU和20.0 FPS。

2 Related works

基于视觉的鸟瞰图感知。 鸟瞰图（BEV）感知方法[16]最近取得了显著进展，由于其计算效率和丰富的视觉语义，发展成为自动驾驶（AD）中的一个关键组成部分。通过利用2D到3D视图变换将相机图像特征投影到BEV表示中，可以将多个任务集成到一个统一框架中。视图变换大致可以分为两类：正向投影和反向投影。前者采用显式深度估计将图像特征投影到3D空间。相比之下，后者首先初始化一个BEV空间，然后通过空间交叉注意力隐式地建模深度信息。尽管BEV感知在3D目标检测方面表现出色，但在处理自动驾驶安全至关重要的极端情况和词汇外目标方面仍存在困难。为了解决这个问题，提出了3D占用预测，很快在AD中成为了一个有前景的解决方案[1]。

3D占用预测。 3D占用预测使用连续 Voxel 网格重建3D空间，这为检测一般目标提供了增强的几何信息和能力。一个直接的想法是将3D目标检测方法的BEV表示替换为 Voxel 表示，然后附加一个分割头。然而，与BEV相比， Voxel 表示带来了相当大的计算和内存成本。为了解决这个问题，TPVFormer[13]将3D空间划分为三个视图平面进行特征提取，然后通过插值恢复 Voxel 表示。SurroundOcc和CTF-Occ[32]利用多尺度编码器逐步增强 Voxel 表示。FB-OCC[21]采用正向和反向视图变换的混合来完成稀疏 Voxel 特征。COTR[24]提出了一种通过下采样获得紧凑 Voxel 表示的方法，但其特征增强网络过于庞大，显著降低了运行速度。PannoOcc[34]基于占用表示引入了一种新颖的全景分割任务，并采用稀疏3D卷积减少计算量。尽管在准确性上取得了进展，但现有方法通常受到速度和内存限制的困扰。因此，作者建立了一个包含速度和内存使用的基准，以提供更全面和公平的方法评估。

部署友好的占用预测。 最近，一些研究工作关注占用预测的部署友好性。例如，FlashOcc[38]直接使用BEV表示预测几何和语义，从而降低了计算成本。同样，FastOcc[10]采用了BEV表示，但通过整合从视图变换获得的 Voxel 特征的残差结构来增强它。SparseOcc[31]采用纯稀疏 Transformer 基网络以减少计算。然而，这些方法通常只评估有限方法集的速度或内存使用。为了建立一个全面且公平的评估基准，这项工作在相同的实验环境下评估了大多数可公开获得的方法。此外，尽管现有方法在效率上有了显著提升，但它们通常无法在实时条件下达到满意的准确性。本文通过解耦几何和语义的学习，同时实现了实时和高精度的性能，以解决这一局限性。

3 Method

3.1 数据收集与预处理

在这一部分，作者将详细描述数据收集的过程以及为后续分析所做的预处理步骤。

Problem Formulation

给定来自个环视相机的图像序列，跨越帧，其中和。每帧中的相机内参和外参也是已知的。基于视觉的3D占用预测旨在估计 ego 车辆周围范围内的3D Voxel 的状态。3D Voxel 形状为（例如，在 [32] 中的 [200,200,16]），其中是每个 Voxel 的大小。每个 Voxel 包含占用状态（"占用"或"空置"）和特定的语义信息（"类别"或"未知"）。得益于占用学习，3D占用预测可以发展出一种通用的物体表示，以处理词汇外和异常障碍物。

Overall Architecture

图3展示了几何-语义解耦占用预测器（GSD-Occ）的概览，包括一个图像编码器来提取图像特征，一个2D到3D的视图转换将图像特征投影到3D空间，一个几何-语义双分支网络（第3.3节）以有效保持几何完整性并提取丰富的语义信息，以及一个几何-语义解耦学习策略（第3.4节）进一步强化了几何细化和语义学习的能力。

图像编码器。 在第帧给定一组环视摄像头图像，表示为，作者采用一个预训练的主干网络（例如，ResNet-50 [9]）来提取图像特征，其中和分别是图像和特征的结构。是 ego-vehicle 上摄像头的数量。2D到3D视图转换。 2D到3D视图转换旨在将2D图像特征转换为 Voxel 表示。鉴于实时模型的学习能力有限，作者采用了一个由深度监督的显式视图转换模块[26]。具体来说，图像特征首先输入到DepthNet [18]中以生成预测的深度分布，其中是深度分箱的数量。通过外积，以和作为输入，可以获得伪点云特征。最后，对应用 Voxel 池化以获得 Voxel 特征，并执行下采样以降低计算复杂度。

Geometric-Semantic Dual-Branch Network

几何-语义双分支网络（GSDBN）模块背后的关键思想是采用混合的BEV- Voxel 表示方法，其中稀疏的 Voxel 特征作为“骨架”来保持3D几何信息，而计算高效的BEV特征则作为“血肉”用语义信息来完善 Voxel 特征。作者首先详细阐述了GSDBN设计的两个原则，即“稀疏几何”和“密集语义”。

（1）3D占用栅格中的稀疏几何反映了物理世界的离散化，这导致了 Voxel 特征的稀疏性，在2D到3D视图转换后，超过35%的值变为零。

（2）另一方面，密集语义对于维持模型的分类能力是必要的，因为过多的零值会严重降低性能。

然后，作者基于这两个关键原则详细介绍了GSDBN。

3.3.1 Semantic BEV Branch

图4：3D几何编码器中大型核3D卷积重参化技术的说明。

该技术采用并行的膨胀小型核3D卷积来增强非膨胀大型核3D卷积。本例展示的是。

多摄像头图像首先被送入图像 Backbone 网络以获取图像特征，并使用DepthNet [18]预测深度分布。随后，采用Lift-Splat-Shoot (LSS) [26]模块将2D图像特征显式转换为3D Voxel 特征。接着，几何-语义双分支网络利用混合的BEV- Voxel 表示有效地维持几何结构同时提取丰富的语义信息。几何-语义解耦学习策略将 GT 深度注入LSS，以分离几何校正和语义知识的学习，从而进一步提高准确性。

BEV级时间融合。

为了减少计算和内存成本，作者提出使用BEV特征代替[21]中用于时间融合的 Voxel 特征。此外，作者引入了[25]中的历史特征队列，以避免[11, 24, 38]中的耗时且重复的特征重新计算。具体来说，作者将 Voxel 特征沿着高度维度折叠以获得BEV特征，并维护一个长度为的记忆队列来存储历史BEV特征。为了将历史帧的BEV特征与当前帧融合，作者首先将它们变换到当前时间戳，然后通过2D卷积处理以获得时间BEV特征。Voxel 特征的稀疏性使得BEV特征能够保留丰富信息，从而产生可接受的准确性下降（0.69 mIoU）和显著的推理时间减少（0.025秒）。

2D语义编码器。

作者采用轻量级的2D类似UNet [30]编码器来提取富含语义信息的特征。具体来说，时间BEV特征被下采样并通过4倍上采样，使用残差融合多尺度特征。这个过程产生了语义BEV特征。

3.3.2 Geometric Voxel Branch

3D几何编码器。 受[7, 8]的启发，作者通过设计一个具有大核的重新参数化的3D卷积来扩展重参化技术到3D占有预测，以进行几何编码。通过这种方式，作者可以增强 Voxel 特征的感受野以细化几何结构，同时重参化技术显著减少了推理时间。

在训练过程中，作者采用了非膨胀的小核3D卷积以及批量归一化（BN）层的多个膨胀小核3D卷积。这种组合有助于捕捉小尺度模式并增强感受野。在推理过程中，这些并行的小核3D卷积可以转换成大核卷积以提高效率。

如图4所示，作者展示了一个尺寸为等于的3D卷积核的案例。由于在输入中省略像素等同于在卷积中插入额外的零条目，具有小核的膨胀卷积可以等价地转换为具有稀疏大核的非膨胀卷积[8]。对于具有膨胀率的小型3D卷积核，这种转换可以通过转置卷积优雅地实现：

其中和表示步长。然后，稀疏核和随后的3D BN层（包含累积均值、标准差、学习到的缩放因子和学习到的偏置）可以转换为一个带有偏置向量的卷积。

最终大核的权重和偏置可以通过对小核卷积的多个并行操作中和进行求和得到：

其中是小核卷积的数量，是一个零填充函数，用于将填充至大核的大小。最终，通过使用大核的权重和偏置执行3D卷积，可以得到几何 Voxel 特征。

BEV Voxel 提升模块。 为了融合BEV和 Voxel 分支的输出，作者提出了一个BEV Voxel 提升（BVL）模块，该模块将BEV特征投影到 Voxel 空间。这一设计受到LSS [26]的启发，但它是沿着高度维度投影BEV特征，而不是沿着深度维度投影图像特征。如图3所示，BVL模块应用于时序BEV特征和语义BEV特征。例如，以作为输入，一个上下文分支生成高度感知特征，而一个高度分支预测高度分布。然后，通过外积获得语义 Voxel 特征。最后，通过将几何 Voxel 特征与语义 Voxel 特征相加，然后使用转置3D卷积进行2倍上采样，得到几何-语义解耦特征：。

Geometric-Semantic Decoupled Learning

在第3.3节中，GSDBN模块通过双分支网络设计有效地缓解了几何与语义之间的耦合问题。在本节中，作者从学习的角度进一步考虑这个问题。作者关注一个对于2D到3D视角转换至关重要的组成部分，即LSS模块，它通过预测深度分布将图像特征投影到 Voxel 空间。然而，由于预测深度并不总是准确，尤其是在训练的早期阶段，这会加剧耦合问题并导致优化不稳定。

一个直观的想法是在训练期间直接用 GT 深度替换LSS中的预测深度，而在推理时使用预测深度。这种策略受到语言模型[2, 27, 28]的启发，在这些模型中，在训练期间提供顺序的真实标记以预测下一个标记，但在推理时预测完整的句子。然而，这种策略表现不佳，因为模型没有学会如何细化预测的几何形状。

为了解决这个问题，作者提出了一个几何与语义解耦学习（GSDL）策略。具体来说，在训练开始时，作者将 GT 深度引入到LSS中，这样模型可以分别专注于利用准确的 GT 几何来学习语义。随后，在训练过程中，作者逐渐将 GT 深度与预测深度混合，以使模型适应预测的几何形状。通过使用一个因子进行算术平均，可以得到混合深度：

的值由一个投影函数决定，该函数随训练迭代次数单调递增。作者首先将迭代次数的范围从转换为，其中是最大训练迭代次数，而是在本工作中未经过仔细选择而设定的常数5。然后，作者使用sigmoid函数来平滑训练过程：

其中是控制混合斜率的参数。由于在训练结束时，模型获得了细化预测几何的能力，并且在推理时不再需要 GT 深度。

4 Experiments

在本节中，作者将详细阐述所进行的实验，以及实验的设计和分析结果。

Experimental Setup

作者使用Occ3D-nuScenes 基准来评估作者的模型，该基准基于nuScenes [3] 数据集，并为CVPR2023 3D占用预测挑战而构建。数据集包含1000个视频，分为700个用于训练，150个用于验证，以及150个用于测试。每个视频的关键帧包含一个32束激光雷达点云、六个来自环视摄像头的RGB图像，以及密集的 Voxel 级语义占用标注。在3D Voxel 空间中的感知范围是，每个 Voxel 的大小为 [0.4m, 0.4m, 0.4m]。Voxel 包含18个类别，其中包括16个已知目标类别，一个标记为“其他”的未知目标类别，以及一个“空”类别。遵循之前的工作 [10, 21, 32, 38]，作者使用所有类别上的平均交并比（mIoU）来评估准确性。

Implementation Details

遵循常见做法，作者采用ResNet-50[9]作为图像 Backbone 网络。作者维护一个长度为15的记忆队列以存储历史特征，并通过16帧融合时间信息。在几何编码器中的大核重参化3D卷积中，作者将卷积核的大小设置为[11, 11, 1]。在几何-语义解耦学习中，陡度参数被设置为5。在训练过程中，作者在8个Nvida A100 GPU上使用32的批处理大小。除非另有说明，所有模型都使用AdamW优化器[23]进行训练，学习率为，权重衰减为0.05，共训练24个周期。在推理过程中，作者在单个Nvidia A100 GPU上使用批处理大小为1。通过mmdetection3d代码库[5]测试FPS和内存指标。

Main Results

在表1和图1中，作者对比了GSD-Occ与先前最先进（SOTA）方法在Occ3D-nuScenes验证集上的表现。GSD-Occ在实现与非实时方法相当或更好的准确度的同时，展现了实时推理速度和低内存使用。与获得2023年CVPR占用挑战赛冠军的FB-Occ [21]相比，GSD-Occ的速度大约快了3倍，并在mIoU上提升了1.9%。相较于其他实时占用预测方法，GSD-Occ在mIoU上显著高出5.2%，并且速度甚至快于FastOCC [10]。这些结果突显了作者的方法中几何与语义解耦的有效性。当作者把GSD-Occ的输入图像大小提高到2倍时，mIoU进一步提升了2.3%，而无需任何额外修饰。推理速度降低了2倍，这表明输入大小与推理速度之间几乎呈线性关系。这一特性使得GSD-Occ能够高效处理高分辨率图像。与更近期的方法相比，GSD-Occ的mIoU仅比PannoOcc [34]低0.4%，但它速度快了大约3倍，并且只使用了大约50%的内存。尽管COTR [24]的mIoU比GSD-Occ高出2.8%，但其速度显著较慢（超过10倍）。此外，作者在表2中报告了[31]提出的RayIoU指标。与最近的SOTA方法SparseOcc [31]相比，GSD-Occ在速度更快和内存使用更低的情况下，mIoU高出4.9%。

作者在图5中进一步提供了定性结果。尽管大幅减少了计算量，作者的方法也能有效地感知几何细节（即使在第二行线索很少的情况下）和准确的语义（第三行）。此外，作者的方法在夜间条件下（第四行）也表现良好。

Ablations

在本部分中，作者在Occ3d-nuScenes验证集上进行了消融实验，以深入探究每个模块的影响。

4.4.1 Ablations on GSDBN

表3展示了结果，作者可以观察到几何-语义双分支网络（GSDBN）的每个组成部分都对整体性能有所贡献。缺乏时序融合以及2D和3D编码器的基准模型，虽然达到了快速的处理速度（27.0 FPS），但在准确性（35.11% mIoU）方面表现不足。对于时序融合，虽然应用 Voxel 特征相比于使用鸟瞰图（BEV）特征带来了0.69%的mIoU提升，但也引入了显著的推理延迟（0.029秒），相对于准确性的提升来说，这个代价是高昂的。将GSDBN模块集成到基准模型中，使得mIoU提高了3.79%，而计算成本的增加相对较小（速度从27.0 FPS降低到20.0 FPS）。这表明GSDBN通过混合BEV- Voxel 表示有效地分离了几何和语义的学习，既高效又有效。

4.4.2 Ablations on GSDL

为了证明几何-语义解耦学习（GSDL）的有效性，作者将其实施于不同的预训练模型和方法，如表格4所示。在不产生额外计算成本的情况下，GSDL在不同的预训练模型（BEVDepth [18] 和 ImageNet [6]）和方法（FB-OCC [21] 和作者的 GSD-Occ）上均实现了稳定的准确度提升。这突显了GSDL的泛化能力，其通过一种简单而有效的学习策略进一步解耦了几何与语义。

4.4.3 Additional Ablations

BVL的有效性。 如表5所示，作者比较了BEV-Voxel提升（BVL）模块与其他现有方法，结果显示BVL模块在速度最快的同时达到了最高的准确度，证明了其有效性。历史帧越多越好吗？ 如表6所示，作者探讨了不同时间序列长度的影响：短（1），中等（7），长（15）和非常长（31）。结果表明，长时间序列融合实现了最高的准确度。由于作者使用BEV特征进行2D时间融合，即使时间序列长度增加，计算成本仍然可承受。

更大的3D卷积核是否更好？ 在表7中，作者展示了不同 Kernel 大小在3D重参化卷积中的结果。采用的 Kernel 大小达到了最高的准确度。这表明，校正几何误差需要相对较大的感受野，但过大的 Kernel 可能会适得其反。此外，得益于作者采用的重参化技术，推理速度从18.6 FPS显著提升到20.0 FPS。

预测和 GT 深度混合曲线应该是平滑还是陡峭？ 如图6所示，作者绘制了方程5的曲线，并进行了实验，以探索GSDL中不同陡度 Level 的影响。当陡度参数设置为5时，作者取得了最高的准确度。这表明过于平滑的混合曲线可能会阻碍模型适应预测深度的能力，而过于陡峭的曲线可能会使训练过程复杂化。

5 Conclusion

具体来说，作者提出了一种结合了混合BEV-Voxel表示的几何-语义双分支网络，该网络既保持了计算效率又保持了几何完整性。

此外，作者提出了一种几何-语义解耦学习策略，它将几何校正和语义知识的学习分离开来，从而在多种预训练模型和方法中一致地提高了准确度。为了验证作者方法的有效性，作者在Occ3D-nuScenes基准上比较了GSD-Occ与最近的领先（SOTA）方法。

结果表明，GSD-Occ在实时占用预测方面取得了新的SOTA性能。

参考

[1].Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
国科大提出BEV-Voxel：自动驾驶中占用预测的快速准确方法！

作者|AI 驾驶员编辑| 智驾实验室点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『占用网络』技术交流群本文只做学术分享，如有侵权，联系删文占用预测在自动驾驶（AD）中扮演着至关重要的角色，因为它具有细粒度的几何感知和通用目标识别能力。然而，现有的方法往往会产生较高的计算成本，这与AD的实时需求相矛盾。为此，...
复制链接

扫一扫