作者 | 狗蛋 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/12072522979
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
1.研究介绍
看到算法带有版本号就让人yolo,从第1代干到现在的11代了,以前还能说清楚yolo1到yolo3的改进和差异,当发展到11代就很难想起他们的差异了。Sparse4D目前已经发展到第三代了。
paper: arXiv reCAPTCHA
github:https://github.com/linxuewu/Sparse4D

与基于BEV的方法相比,基于稀疏方法的性能较为落后,但仍然具有许多不可忽视的优点。为了进一步推动稀疏3D检测的发展,本文通过稀疏采样和融合时空特征进行锚框的迭代优化。
(1)稀疏4D采样
对于每个3D anchor,分配多个4D关键点,这些关键点然后被投影到多视角/尺度/时间戳的图像特征中,以采样相应的特征;
(2)层次化特征融合
对不同视角/尺度、不同时间戳和不同关键点的采样特征进行层次化融合,以生成高质量的实例特征。
Sparse4D无需依赖于密集视角转换或全局注意力,并且更适合于边缘设备的部署。此外,还引入了一个实例级深度重加权模块,以缓解3D到2D投影中的病态问题。
1. 引言
摄像头由于缺乏明确的深度信息,从2D图像进行3D感知是一个病态问题,如何融合多摄像头图像以解决3D感知任务,是视觉BEV要解决的问题。
目前BEV主要分两类:
(1)基于BEV的方法(dense)
以LSS、为代表
通过将多视角图像特征转换到统一的BEV空间中来进行3D检测。但仍然存在一些不可避免的缺点
图像到BEV的透视变换需要密集的特征采样或重排,这对于低成本边缘设备的部署来说既复杂又计算量大;
最大感知范围受限于BEV特征图的大小,难以在感知范围、效率和精度之间进行平衡;
BEV特征在高度维度上被压缩,丧失了纹理信息。因此,BEV特征在一些感知任务(如标志检测)中表现不佳。
(2)基于稀疏的方法
detr3d,petr为代表
与BEV的方法不同,基于稀疏算法不需要密集的透视变换模块,而是直接对3D锚点(anchor)进行稀疏特征采样,从而能够缓解上述问题。
其中,最具代表性的稀疏3D检测方法是DETR。
(1)然而,DETR3D的模型容量有限,因为它仅对每个锚点查询采样一个单一的3D参考点特征。
(2)SRCN3D利用RoI-Align对多视角特征进行采样,但效率不够高,且无法精确对齐来自不同视角的特征点。
同时,现有的稀疏3D检测方法并未充分利用丰富的时间上下文信息,因此与最先进的BEV方法相比,性能存在显著差距。
sparse4D针对以上问题,改进如下:
(1)sparse4D利用分布在3D锚点框区域内的多个关键点进行特征采样。与单点方法和RoI-Align方法相比,
1)能够高效地提取每个锚点框内部丰富且完整的上下文;
2)能够简单地扩展到时间维度,作为4D关键点,从而有效对齐时间信息。

(2)为缓解基于摄像头的3D检测中的病态(ill-posed)问题并提高感知性能,显式地加入了一个实例级深度重加权模块,其中实例特征通过从预测的深度分布中采样的深度置信度进行重加权。
2.相关工作
早期的目标检测方法使用密集预测作为输出,然后通过非极大值抑制 (NMS) 来处理这些密集预测。DETR 引入了一种新的检测范式,利用基于集合的损失和 Transformer 来直接预测稀疏的检测结果。DETR 在目标查询(object-query)和全局图像上下文之间执行交叉注意力,这导致了较高的计算成本和收敛困难。由于使用了全局交叉注意力,DETR 不能被视为一种纯粹的稀疏方法。Deformable DETR对 DETR 进行了改进,提出了一种基于参考点的局部交叉注意力,这加速了模型收敛并降低了计算复杂度。Sparse R-CNN提出了另一种基于区域提议思想的稀疏检测框架,其网络结构极其简单有效,展示了稀疏检测的可行性和优越性。作为 2D 检测的扩展,许多 3D 检测方法最近也开始更多关注这些稀疏范式,例如 MoNoDETR 、DETR3D 、Sparse R-CNN3D 、SimMOD。
单目3D检测算法以单张图像作为输入,输出目标的3D边界框。由于图像不包含深度信息,这个问题是病态(ill-posed),相较于2D检测更加具有挑战性。FCOS3D 和 SMOKE 基于单阶段的2D检测网络进行扩展,使用全卷积网络直接回归每个目标的深度。也有算法则将2D图像通过单目深度估计结果转换为3D伪点云信号,然后使用基于LiDAR的检测网络完成3D检测。OFT 和 CaDDN 借助视图变换模块将密集的2D图像特征转换为BEV(鸟瞰图)空间,然后将BEV特征输入检测器以完成3D目标检测。不同的是,OFT 使用3D到2D的逆投影关系完成特征空间变换,而CaDDN基于2D到3D投影,更类似于伪LiDAR的方法。
密集算法是多视角3D检测的主要研究方向,这类算法使用密集特征向量进行视图变换、特征融合或边界框预测。目前,基于BEV的方法是密集算法的主要组成部分。BEVFormer 采用可变形注意力来完成BEV特征生成和密集的时空特征融合。BEVDet使用提升-投影操作(lift-splat operation)实现视图变换。在BEVDet的基础上,BEVDepth 添加了显式的深度监督,显著提高了检测的精度。BEVStereo 和 SOLOFusion 将时间立体技术引入3D检测,进一步改善了深度估计效果。PETR 利用3D位置编码和全局交叉注意力进行特征融合,但全局交叉注意力的计算开销较大。DETR3D是稀疏方法的代表性工作之一,其基于稀疏参考点执行特征采样和融合。Graph DETR3D 延续了DETR3D,并引入了图网络以实现更好的空间特征融合,尤其在多视角重叠区域中表现突出。
3.方法介绍
Sparse4是encoder-decoder结构。encoder用于提取具有共享权重的图像特征,包括一个主干网络(如ResNet [10] 和 VoVNet [14])以及一个特征融合网络(如FPN)。给定时间戳 t 的 N 张多视角输入图像,encoder提取多视角、多尺度的特征图。

为了利用时间上下文信息,提取最近 T 帧的图像特征,构建图像特征队列:

随后,decoder以迭代细化的方式预测检测结果,包括一系列细化模块和一个分类头,用于最终分类置信度的预测。每个细化模块以图像特征队列 I、3D锚框 B和对应的实例特征 F作为输入,输出更新的3D框和实例特征。这里,M 表示锚框的数量,C表示特征通道的数量。每个锚框的格式为:

所有3D锚框均设置在统一的3D坐标系中(如中心LiDAR坐标系)。在每个细化模块中,首先采用自注意力机制实现实例间的交互,并在交互前后添加锚框参数的嵌入(embedding)。进行可变形4D聚合,融合多视角、多尺度、多时间戳以及多关键点的特征。此外引入深度重权模块,以缓解基于图像的3D检测中的病态问题。最后,通过回归头预测当前锚框与真实值之间的偏移量,从而细化当前锚框。整体结构,如下图所示:

3.1 可变形4D聚合
实例特征的质量对整个稀疏感知系统具有关键影响。为了解决这个问题,引入了可变形4D聚合模块,通过稀疏特征采样和层次特征融合来获得高质量的实例特征。

3.2 4D关键点生成
对于第 m个锚点实例,分配 K个4D关键点,表示为 P,这些关键点由 KF个固定关键点和KL 个可学习关键点组成。在当前时间戳 t0 下,先将固定关键点 Pm放置在锚框的立体中心以及六个面的中心位置。与固定关键点不同,可学习关键点会随不同的实例特征而变化,使得神经网络能够找到每个实例最具代表性的特征。
通过将实例特征与锚框嵌入相加,可学习关键点 Pm计算公式如下:

表示偏航角的旋转矩阵

3.3时间特征处理
时间特征对3D检测至关重要,并能提升深度估计的准确性。获得当前帧的3D关键点后,将其扩展为4D,以便进行时间融合。对于一个过去的时间戳 t,首先构建一个匀速模型,将每个3D关键点平移到当前帧的3D坐标系中:

3.4稀疏采样

3.5层次融合
为了生成高质量的实例特征,以分层方式融合上述特征向量。对于每个关键点,首先用预测的权重对不同视角和尺度的特征进行聚合,然后通过序列线性层进行时间融合。最后,对于每个锚点实例,融合多个关键点特征生成实例特征。
具体来说,给定锚点实例特征(已加上锚框嵌入),我们首先通过线性层 Ψ 预测分组加权系数:

其中 G是按通道划分的分组数。通过该系数,可以对不同组的通道使用不同权重进行加权聚合,类似于分组注意力机制。

3.6深度重加权模块
这种 3D 到 2D 的转换存在一定的模糊性,同的 2D 坐标。对于不同的 3D 锚点,可能会采样到相同的特征(见图4),这增加了神经网络拟合的难度。为了解决这一问题,我们引入了显式深度估计模块 该模块由多个带残差连接的多层感知机(MLP)组成。对于每个聚合特征Fm,我们估计一个离散的深度分布,并利用 3D 锚框中心点的深度来采样对应的置信度Cm,该置信度将用于对实例特征进行重加权。
通过这种方式,对于那些 3D 中心点在深度方向上远离真实值的实例,即使它们的 2D 图像坐标与真实值非常接近,相应的深度置信度也会趋于零。因而,对应的实例特征 Fm在重加权后也会被惩罚,趋于零。此外,深度估计模块可以作为一个独立部分设计和优化,从而提升模型性能
综合看来,sparse4D,还是难理解的。
4.细节
5.code
使用比较多的tricks,持续更新中
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵