ECCV 2024 | FSD-BEV:北航&极氪联合提出感知新SOTA!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之为大家分享一篇前景自蒸馏算法刷新跨模态感知新SOTA,已被ECCV2024收录!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心BEV感知技术交流群

论文作者 | Zheng Jiang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

基于BEV空间的3D目标检测是自动驾驶当中至关重要的任务之一。由于纯视觉的BEV感知算法部署友好且成本低廉,近年来受到了来自工业界和学术界的广泛关注,基于纯视觉的BEV感知算法目前已经取得了长足的进展。虽然由于激光雷达自身硬件设备成本高,同时采集到的点云数据缺乏物体的颜色以及丰富的纹理信息,但是激光雷达传感器采集到的点云数据可以提供目标准确的几何结构和形状信息,相机传感器采集到的图像数据由于缺少物体准确的深度信息,依旧和基于激光雷达的感知算法在性能上有一定的差距。

受到知识蒸馏等相关工作的启发,在智驾感知任务当中,相关的研究学者们目前已经提出了多种跨模态的蒸馏方法,实现对感知任务有益信息从教师模型转移到学生模型,在不增加额外计算量的情况下进一步提升学生模型的感知性能。

目前较为主流的蒸馏方式即采用性能较好的激光雷达感知算法作为教师模型,感知性能较差的视觉算法作为学生模型。其网络结构可以大体表述为下图的子图(a)。这类蒸馏算法模型的大体思路是利用预先训练好的教师模型将激光雷达点云或多模态输入转换为冻结的教师BEV空间特征,作为学生生成的BEV空间特征的先验指导。但这类蒸馏算法由于激光雷达点云数据模态和相机图像数据模态的不一致以及教师和学生算法网络模型的结构不一致导致从教师模型转换到学生模型的知识过程具有很大的挑战性。

33cf61b0fd09952774ca8b1abbaca0ef.png
跨模态蒸馏算法和我们提出的自蒸馏算法的网络模型对比图

考虑到上述提到的相关问题,我们提出了一种前景自蒸馏的算法框架称为FSD-BEV,如上图的子图(b)所示。蒸馏框架中的教师分支利用激光雷达点云生成的硬标签来获得高质量的教师BEV空间特征并为学生分支提供指导。同时,学生模型利用预测出来的软标签来填补硬标签的空缺来补偿教师模型。通过在nuScenes数据集上的实验结果表明,我们提出的FSD-BEV算法模型取得了SOTA的检测结果。

文章链接:https://arxiv.org/abs/2407.10135

网络模型的整体架构&细节梳理

在详细介绍本文提出的前景自蒸馏算法模型FSD-BEV之前,下图展示了我们提出的FSD-BEV算法的整体网络结构。

a26e8535c79d674b3456e71aa8921d71.png
FSD-BEV算法模型的整体网络结构图

通过上图展示的网络结构图可以看出,与以前基于BEV空间的跨模态蒸馏方法采用额外的预训练教师模型不同,我们提出的FSD-BEV算法模型在单独的一个模型当中完成了特征的对齐过程。同时考虑到蒸馏框架中的教师分支的性能在很大程度上取决于点云生成的硬标签的质量。因此,我们设计了两种点云强化 (Point Cloud Intensification,PCI) 策略来解决点云数据的稀疏性问题,即合并帧信息和为没有关联点的对象分配伪点。通过这种方式,点云产生的硬标签的稀疏性得到了很好的缓解,为特征合成提供了更好的指导。此外,我们也设计了一个多尺度前景增强 (Multi-Scale Foreground Enhancement,MSFE) 模块,通过预测出的椭圆高斯热力图提取和融合多尺度前景特征,从而提高整个框架的性能。

接下来我们将详细介绍每个关键技术创新点的实现细节

Foreground Self-Distillation

由于教师模型是基于激光雷达模态的感知算法,学生模型是基于视觉图像模态的感知算法,这就会使得教师模型和学生模型各自产生的BEV特征之间的分布差距给跨模态蒸馏任务带来挑战。此外,蒸馏算法的重点在于对教师和学生模型特征分布差异的情况下进行有效地迁移特征,但BEV空间中背景区域特征的模仿对学生模型精度的提升很微小,因此很自然的想到对前景目标映射到BEV空间上的特征进行蒸馏任务。

在我们设计的自蒸馏算法框架中,我们并没有像之前常见的蒸馏算法一样使用预训练好的教师模型。相反,在我们设计的自蒸馏方法当中,教师和学生模型共同参与了联合学习过程。具体而言,虽然教师和学生模型的BEV空间特征共享相同的上下文特征信息,但更准确的深度和语义信息有助于构建高性能的教师BEV空间特征,为学生的BEV空间特征提供持续的指导。此外,通过引入前景分割来生成仅包含前景信息的BEV空间特征,这放弃了对背景区域的无用模仿并避免了噪声干扰。前景分割还大大提高了教师分支的准确性,从而增强了蒸馏效率。该部分的整体思路如下图所示:

890621efca990aa8a2d7e9309fd86efc.png
自适应蒸馏过程中BEV特征的生成过程
  • 学生模型中BEV空间特征的生成过程:我们采用了BEVDepth当中BEV特征的生成范式,通过预测语义上下文特征以及离散的深度概率特征。此外,我们也通过预测前景分割结果来过滤BEV空间特征中的背景区域。我们采用了SA-BEVPool中的实现思路来生成仅包括前景特征信息的BEV空间特征,其实现过程可以用下面的表达式描述

  • 教师模型中BEV空间特征的生成过程:我们同样采取了与学生分支生成BEV特征的思路,具体而言,我们采用真值深度图以及前景的分割结果来代替学生模型分支中的和。这里,我们将真值标签称之为硬标签,学生模型预测出来的结果称之为软标签。虽然硬标签可以为算法模型提供准确的场景信息,但由于点云数据的稀疏性也会导致硬标签包含的信息过少。因此,为了缓解这个问题,我们采用软标签来填补硬标签的缺失部分,实现软硬标签的组合,其过程可以用下面的公式进行表示:

其中表示硬标签的有效掩码。当硬标签可用时,的值为1,否则为0。然后通过以下方式生成教师模型的BEV空间特征:

由于在我们设计的自蒸馏算法框架当中,学生和教师模型输出的BEV空间特征都继承了中的特征信息,因此它们之间的差距比以前 的跨模态蒸馏框架要小得多。同时,学生分支预测的部分软标签也参与了教师分支的BEV空间特征的构建过程,从而使得学生分支模 型更容易模仿教师分支模型。

  • 协同训练:由于直接对齐教师模型和学生模型各自输出的BEV特征是比较有挑战的事情。在以往的跨模态蒸馏算法当中都会加入一个额外的自适应模块将学生模型输出的BEV空间特征映射到教师的BEV空间特征中实现两个模态之间的对齐任务。但在我们提出的FSD-BEV自蒸馏算法当中,我们是将两个模态的输出特征沿着Batch的维度进行拼接,一同喂入到BEV编码器模块中进行处理,从而得到更高级的BEV特征,表述如下:

    通过这种方式,我们实现了和的特征对齐过程。此外,我们发现BEV编码器可以实现在不增加参数的情况下起到了与自适应模块相同的作用,BEV编码器也可以看作是一个特征过滤器,使得过滤后的和相似。

Point Cloud Intensification

激光雷达点云生成的硬标签和的质量决定了教师分支的性能,从而影响整体算法的蒸馏效果。然而,由于点云数据的稀疏性往往导致大量远处的目标只有很少的点云数据或者根本没没有点云数据,从而削弱了硬标签的质量。在论文的具体实现中,我们引入了两种点云强化策略,使硬标签携带更多关于场景的信息,如下图所示

dbaf2a7a949c69f0ef6f5ea96b9df84f.png
点云强化策略的总体实现思路
  • 帧融合策略:我们通过使用时间上的相邻帧来补充点云数据的数量。同时为了避免动态目标的点云数据会引入错误,我们只会组合属于静止前景物体的点云数据,例如停放的汽车、无人骑乘的自行车和交通锥。我们将相邻帧的点云转换为当前帧的坐标系,当前帧中的物体在经过帧融合策略之后将具有更密集的点,如上图的子图(a)所示。

  • 伪点云分配策略:在使用上一步的帧融合策略后,可能会存在仍有一些物体没有出现在硬标签上。它们可能是不适合帧融合的动态物体,或者距离很远,甚至相邻帧也无法提供有效的点云数据。在这种情况下,在空间中为这些物体分配近似点是一个合理的选择。具体而言,我们首先将真实3D框投影到图像上以获得其对应的2D矩形框。每个2D矩形框可以用表示,其中表示左上点,表示右下点。然后,我们根据以下几个标准选择应分配伪点的框:1) 经过帧融合策略后,框内没有真值点云数据;2) 框的深度在感知范围内;3) 框具有良好的可见性。同时满足以上三个条件的框,其伪点在图像坐标系中的坐标可以表示为:

    其中代表原有3D框八个角点中深度最小的数值。

Multi-Scale Foreground Enhancement

融合高尺度特征是向视图变换模块提供更精细深度图的直接方法。同时,我们认为在高尺度特征中前景比背景更有优势。为此,我们选择FPN特征金字塔输出的降采样四倍的特征图来获取高尺度的前景分割结果。再获得了前景分割结果后,我们选择采用一个阈值进行过滤,可以表述如下

最后,我们采用如下的方式完成特征间的聚合操作,使得融合后的特征图可以提供更详细的信息。

实验结果&评价指标

定量分析部分

为了验证我们提出的FSD-BEV算法模型的有效性,我们在nuScenes数据集上进行了相关实验,在验证集上的实验结果汇总在下表中。

aa6f5c76859c9150f80134283f1b6a20.png
不同算法模型在nuScenes数据集的验证集上实验结果汇总

通过实验结果可以看出,在同样主干网络以及融合帧数的情况下,我们的算法模型实现了最佳的感知结果。此外,我们也在nuScenes数据集的测试集上进行了实验,结果汇总在下表当中。

b92425029b450dee3dceeccfff14e043.png
不同算法模型在nuScenes数据集的测试集上实验结果汇总

通过相关的实验数据也可以看出我们提出的FSD-BEV在使用较少帧融合的情况下,实现了更高的感知性能。此外,我们也将我们提出的跨模态蒸馏算法FSD-BEV与其它的蒸馏算法进行了实验结果对比,实验结果如下表所示

dc8122414b1d371c9ba69b70428f7842.png
不同跨模态蒸馏算法的实验结果对比

通过实验结果可以看出,我们提出的简单的前景自蒸馏算法框架优于采用复杂策略的其他蒸馏方法。并且在主干网络选择为ResNet101网络时,FSD-BEV的优势更加明显,大大超过了其他方法的蒸馏增益。

定性分析部分
557e56cca02488d0443815fb32008d11.png
提出的FSD-BEV和BEVDepth在BEV热力图上的可视化结果

通过可视化结果可以看出,在教师模型的指导下,与基线算法模型BEVDepth相比,提出的FSD-BEV算法模型的学生分支预测的热力图更接近教师模型的高质量BEV热力图,从而产生更精确的预测框。

结论

在本文中,我们提出了一个自蒸馏的感知算法模型框架FSD-BEV,该算法模型可以缩小基于激光雷达点云的3D目标检测算法和基于视觉的3D目标检测算法之间的性能差距,同时无需预训练的教师模型以及繁琐的蒸馏策略,在nuScenes数据集的验证集和测试集上实现了SOTA的检测性能。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

ef6c6dfa445422f258b6b160daaedf36.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

2fa35ed5b1bdd54f363106d3848da7e5.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

65536b470f1ac90ae2660fc054bfbfcc.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

321f07a5f1c92b9bf1e32f5b5a2e7fa8.jpeg

④【自动驾驶之心】全平台矩阵

e9f5ea4f1e822cc1e11b55465a7e3b42.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值