BEV进入定制化时代！清华Hierarchical BEV：创新多模块学习框架，无痛落地无缝量产！...

最新推荐文章于 2024-08-11 00:01:59 发布

自动驾驶之心

最新推荐文章于 2024-08-11 00:01:59 发布

阅读量368

点赞数 5

文章标签：学习

本文链接：https://blog.csdn.net/CV_Autobot/article/details/140836379

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华大学最新的工作—Hierarchical and Decoupled BEV！全新BEV感知范式，解决感知算法开发过程中存在开发周期长、可复用性差、传感器设置复杂等问题。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『BEV感知』技术交流群

论文作者 | Yuqi Dai等

编辑 | 自动驾驶之心

论文思路

自动驾驶指通过传感器计算设备、信息通信、自动控制和人工智能的集成，将车辆转变为能够自我导航的实体。环境感知系统是智能车辆获取外部信息的通道，它的任务是收集、处理和分析与车辆周围环境有关的数据，作为自动驾驶的先决条件。感知系统作为智能驾驶技术的关键要素，为后续模块如定位、预测、决策、规划、控制等提供必要的输入数据。目前，大多数用于车辆实现的感知算法都是基于深度学习实现的，特别是神经网络，这些算法在带有标签的公共数据集上进行训练，并部署在一系列视觉感知任务中。为了解决感知算法开发过程中存在开发周期长、可复用性差、传感器设置复杂等问题，论文提出了一种新的分层感知范式，旨在提供一个基本感知模块库和用户友好的图形界面，从而能够快速构建定制模型。

挑战及主要贡献

挑战

算法在不同和动态设置中的可泛化性：在一种情况下表现出色的模型可能在另一种情况下表现不佳，这强调了适应性强、效率高的感知系统的必要性；
开发智能感知算法的传统过程受到长周期和缺乏模块化的阻碍：这导致了组件的低可重用性，复杂的配置，增加了工程工作中的冗余，增加了开发成本；
在部署过程中缺乏系统的方法来利用公共功能模块，使得大规模生产感知系统的优化变得复杂，阻碍了对特定任务需求的有效适应。

主要贡献

为了应对上述的这些挑战，论文中引入了一种分层感知方案，设计了一个综合框架来简化自动驾驶汽车感知算法的开发。通过将基本算法组件组织到一个功能模块库中，所提出的感知方案使汽车工程师能够以更高的效率构建和定制满足特定操作需求的感知模型。该方案根据感知模型的功能角色对其进行分类，每个模块提供网络结构的选择，这种设计不仅有利于与各种平台的计算能力保持一致，而且简化了对自定义数据集的适应，从而提高了开发效率。这些标准化功能模块的可复用性大大减少了重复的工作，从而缩短了开发时间。另外，考虑到智能汽车平台的快速发展和对快速功能更新的需求，该模块化感知系统具有固有的可扩展性。它允许开发人员轻松地引入新模块或改进现有模块，确保系统的发展响应新出现的需求和技术进步。

为了提高开发效率，论文还提出了一种将预训练与微调相结合的范式。通过利用开源数据集，建立一个性能良好的模型的多样化存储库，这些预训练模型提供了一个坚实的基础，使得在微调阶段需要更少的训练数据和更少的迭代。这种方法使用户能够适应功能和调整参数以匹配自定义数据集，而后通过迁移学习和领域适应等技术在现实场景中实现最佳性能。具体来说，预训练方案包括对每个潜在模块组合进行详尽的训练，以确保每个感知模块被赋予与上游和下游功能对应的兼容权重。一旦建立了感知功能模块库，那就在预训练阶段引入了一种新的多模块学习范式。是针对分层解耦的感知系统设计的，它提高了整体的训练效率，并且可以同时优化多种模型架构以获得性能提升。在后续的研究中，框架已经证明了其有效性。主要贡献可以概括如下:

介绍了一个分层感知系统，提供了一个基本组件库和图形界面，以简化开发过程。用户可以通过拖放操作建立自己的感知模型；
部署范式，以促进快速部署和增强感知算法的可泛化性；
提出了一个创新的多模块学习框架，该框架表明多个模块的联合训练可以提高单个任务的性能并增强模型的鲁棒性。

模型架构：自动驾驶感知集成方案

分层感知范式

图1 分层感知方案概述

论文中提出的分层感知系统的技术细节如图1所示。其核心创新在于提供了一个模块化且易于操作的感知算法构建过程视图，该过程分别通过集成功能模块组件的预训练算法和微调算法来实现。如表1所示，在集成车辆-云端-道路架构的背景下，封装了一套39个通用感知功能模块来表示概念分类。车辆-云端-道路集成感知系统以单个车辆智能感知为基础，主要包括车辆之间、车辆与基础设施之间的协同感知。为了构建数字感知功能模块库，采用多模块集成的知识共享训练方法。首先，在庞大的公共数据集上预训练感知功能模块的各种组合，从而创建模块化组件的存储库。随后，设计一个用户友好的图形化软件界面，通过直观的拖放操作来促进模型的构建。这种图形化软件可以轻松地组装感知模型，为训练、推理和微调提供统一的界面。

表1 车辆-云端-道路集成架构感知功能模块库

以视觉为中心的三维物体检测的原型设计

为了实现表1中描述的设计方案，采用了分阶段迭代的方法。分阶段的实施步骤基于三个关键要素：传感器、感知目标和感知功能。分层三维目标检测方法具有模块化结构，集成了一套专用组件。首先采用图像视图特征提取器对视觉特征进行有效捕获和编码；随后，使用视图转换器将这些编码特征从透视图转换为鸟瞰图，利用时间特征融合模块整合时间信息得到进一步增强特征表示。最后，使用一个特定的检测头在视角下完成目标检测任务。

1）特征提取

图像特征提取模块的主要功能是从输入图像中分别提取低级和高级视觉特征，形成一个通用的视觉表示。为了解决平台的不同计算能力，论文中选择了两种具有不同参数计数和架构复杂性的骨干网络：和。的参数量约为2560万，计算负载约为，非常适合具有中间层计算资源的平台。其更深层的架构，配备了复杂的瓶颈模块，在性能和效率之间取得了不错的平衡，满足了广泛的应用需求。相比之下，是一个密集连接的骨干网络，其设计目标是在不牺牲性能的情况下提高内存效率和推理速度，它的参数量约为1.08亿个，是计算资源丰富的高性能场景的可靠选择。

默认情况下，特征金字塔网络输出的多尺度特征符合1/16、1/32和1/64的尺度，通道维数。

2）图像视图转换

图像视图转换模块包含两种不同复杂性的基于转换器的方法：空间交叉注意和几何引导的核转换器，两者都是基于的方法，以数据驱动的方式对透视图转换建模。视图变换模块的输入由透视视图中图像特征提取模块输出的多尺度图像特征组成。机制旨在通过跨空间注意力机制来集成透视图和特性，它从不同角度捕捉特征之间的相互关系，从而提高了特征转换的精度。首先，将透视特征和初步变换后的特征线性映射到统一的特征空间中；然后计算注意力权重，指示不同位置的特征之间的相关性；最后利用这些权重对特征进行加权求和，实现特征融合。相反，模块通过将几何变换与深度学习模型相结合来优化特征变换过程，从而提高了计算效率。该模块自适应调整卷积核以适应不同的几何结构，提高了特征变换的精度。简单的几何信息，如深度图和相机参数，最初被用来生成几何引导的卷积核，这些核可以动态调整，以更好地捕捉特征中的空间关系。对于由地面高度点组成的查询，通过相机的内外参确定对应的透视图像坐标，然后提取附近的核区域特征并进行交叉关注以产生特征。

3）时间特征融合:

来自历史的时间线索为自动驾驶中的感知提供了额外的信息。时间特征融合模块用于整合图像的时间特征，增强对动态环境的理解。通过提取和合并时间信息，该模块提高了模型对运动物体动态的理解，克服了单帧感知约束，扩大了感受野，减轻了物体检测和目标遮挡等抖动问题，从而提高了精度和一致性。时间特征融合的过程包括三个关键步骤：首先，对前一帧的选择过程确定融合的时间范围。模块从当前帧之前的四帧中随机选择三帧，它们共同代表两秒的间隔。初始帧因为没有先前的帧进行比较，则与自身的副本融合在一起。这个过程需要对每个迭代进行四次向前传递和一次向后传递。直接从缓存中检索前一帧的BEV特征，以保持推理效率；其次，根据自我运动调整前帧的特征，使其与当前帧的特征在统一的坐标系内对齐，从而实现时空对齐。这种对齐对于精确的特征集成至关重要。由于前一帧和当前帧的特征都是在各自的自我-车辆坐标系中定义的，因此必须转换前一帧的特征坐标来和当前帧的特征坐标相对应；最后一步是时间信息的整合：如图2所示，在分层3D目标检测器中集成了两种模块:时间自注意模块和循环拼接融合模块。

模块通过对每个特征应用可变形注意力，将之前和当前的特征在空间和时间上对齐，然后在平面上进行算术平均融合；而模块是基于级联操作和线性层的组合设计的，以一种跨时间维度综合信息的方式融合了对齐的先前和当前特征。

图2 两种不同的时间特征融合方法

4）检测头：

论文中以为基准，采用基于的改进三维检测头，得到最终的预测结果。检测头由6层解码器组成，即交错排列的自注意层和交叉注意层。通过利用单尺度特征作为输入，解码器能够以端到端方式预测边界框和速度，从而消除了后处理的需要。

多模块学习框架

预训练方案包括对每个潜在模块组合进行详尽的训练，确保每个感知模块被赋予与上游和下游功能对应的兼容权重。针对层次解耦的感知系统，方法在核心目标上不同于多任务学习范式。的主要目的是通过联合学习来提高个体任务的表现。相反，框架是由开发一个通用模型库为目标驱动的。通过使用，可以同时训练不同的模型体系结构以获得性能改进。该方法不仅适用于单任务学习情境，也可扩展到多任务学习情境。为了全面地描述，首先需要了解MML的定义。

定义如下：给定个功能模块，其中所有模块或其中的一个子集是相关的，而多模块学习的目的是通过使用所有模型集成中包含的知识来共同学习个模块，以提高模型对共同任务的学习能力。

论文中提出了面向功能模块集成和跨不同模型的通用模块权值收敛的。首先，对复合模型的整个谱进行独立训练，得到每个模型各自的权重参数；然后，在每个训练单元结束时，执行参数融合和跨模型的同源模块权值更新。该策略旨在促进模型间的信息交换，从而增强模型吸收不变特征的能力。在随后的训练迭代中部署合并的权重，使这个循环持续下去，直到达到预定的训练周期阈值。如图3所示，以组合为例详细介绍了所提出的多模块预训练过程。训练流程描述如下：最初，对每个不同的组合模型执行一个单独的小训练会话，该大小为3。在这个初始训练阶段之后，执行参数融合，并更新所有模型共有的模块的权重。随后，进行进一步的训练迭代以实现优化。这个过程的目的是一旦达到预先设定的最大训练次数就结束。在实验中，这个最大值被设置为8轮。因此，这个迭代过程在八个周期中反复进行，最终得出最终的功能模块权重。

图3 多模块学习框架

通过采用软参数共享的方法，提供了一种更加灵活的多模型学习体系结构。在软参数共享的框架下，每个模型都有自己独立的结构和一组排他的参数，而不是直接共享很大一部分网络层。这种设计考虑到不同的任务可能需要学习不同的特征表示，因此，赋予每个模型一定程度的排他性能力有助于提高整体性能。然而，为了实现知识迁移和促进通用表示的学习，软参数共享并没有完全隔离每个任务的模型参数。相反，它通过施加一定的约束，促使不同任务的模型参数趋于相似，从而在一定程度上实现参数共享。

在以视觉为中心的物体检测的背景下，将整个感知模型分为四部分，计算模型的总组合次数为。其中表示某部分所包含的模块数。一个功能模块可以表示为θ，θ，其中表示输入数据，θ表示权重值。那么，柔性功能模块化装配方法可以表示为θ，它可以用以下四个分量表示:

其中表示不同的功能模块，表示输入到不同模块的特征。如算法1所示，在模块化组装阶段，对一个小单元训练的所有个权值进行迭代，如果权值θ包含相应的功能模块权值θ，则将其保存并与包含相同功能模块的所有权值平均。

其中表示含有某一模块的模型数，θ表示装配后的权重。

算法1 平均模块组装策略

实验

实现细节

数据集和指标 数据集是一个多模式自动驾驶数据集，提供了丰富的传感器数据，包括32个摄像头、5个雷达、16个激光雷达、和数据。检测基准，由1000个多模态视频组成，每个视频延长约20秒，关键帧以的间隔捕获。这种设置确保了一个完整的360度的视野，图像数据从六个相机中获取。每个样本由来自前、前左、前右、后左、后右和后方向的6个摄像头的图像组成。数据集被精心划分为700个视频用于训练，150个用于验证，150个用于测试。对于检测任务，有来自10个类别的18538个带注释的边界框。实验中使用官方的评估标准进行评估。的平均精度()是利用地平面上的中心距离而不是三维交并比()来计算，以匹配预测结果和地面真实值。度量还包含5种真值度量(度量)，包括、、、和，分别用于度量平移、尺度、方向、速度和属性误差。还定义了检测分数(NS)来评估检测任务的各个指标综合情况。

训练的细节 实验是通过实现和进行，相应的代码在4块内存为、批处理大小为4的上执行。初始学习率设置为进行训练，并在训练过程中使用余弦策略动态更新学习率。在预训练阶段，除了模型参数外，所有的超参数和设置都按照的参数进行设置。3D目标检测模型采用了两种骨干架构：，用检查点的权重初始化；，检查点的权重初始化。在微调阶段，使用所有预训练的权值初始化目标检测模型。

比较结果

为了证明论文设计的方法的有效性和泛化性，实验利用对所有8个复合模式模型进行预训练，如表2所示。从验证数据集中随机抽取样本作为微调数据。表3说明了方法在物体检测环境中应用于各种集成模型时所取得的性能改进。所有模型都在训练数据集上进行了由24个组成的预训练阶段，然后在10%的验证数据集上进行了另外24个的微调阶段。结果表明，在所有测试的集成模型中，的应用导致和的一致性改进。图4通过数据直方图将对比实验结果进一步可视化。图5给出了各模型的基线性能、应用方法后的性能和改善情况(分别用和表示)。

表2 不同模型配置的详细信息

表3 对不同的集成模型实现了一致的改进

从图4可以看出，模型的改善最为显著，为2.9%，为4.7%。同样，基于的模型也显示出显著的改进，尤其是模型，其为1.6%，为1.7%。虽然模型的绝对性能通常优于模型，但基于的模型的相对改进更为显著。这表明这些模型从的集成中获益更多。综上所述，上述所有实验结果都证明了方法在提高数据集上不同集成模型的性能方面的有效性，如和指标的改进。结果强调了方法在目标检测任务中显著提高深度模型的鲁棒性和准确性的潜力。

图4 不同模块组件的三维探测器在nuScenes数值集上的对比结果

图5 nuScenes验证集的可视化比较结果

消融实验

论文中利用简单有效的平均操作进行消融研究，以验证所提出的训练策略的有效性。进一步使用不同的模型权值合并算法进行数值实验，如图6所示，分别命名为和。在中，模块参数通过加权求和更新，其中参数由从精度度量和函数导出的加权因子确定，如式4所示。方法通过使用显示最高分数的模型的参数更新模块权重，进一步优先考虑简单性。不同数据设置下的定量评价结果如表4和表5所示，强调了各种集成策略在和模型上的性能。使用策略，系列模型的从21.41%提高到22.29%，从36.62%提高到37.98%。相比之下，和策略的和值降低。

图6 消融方法

表4 在nuscenes验证数据集上与1:9分割的性能比较

表5 在nuscenes验证数据集上与3:7分割的性能比较

系列模型(如)显示，随着策略的增加，和分别增加了33.50%和47.06%。30%的数据集证实了这些结果，对模型产生轻微的和上升，而和未能超过基线。值得注意的是，系列模型在使用后表现出更明显的改进，如模型的和分别上升到21.55%和43.31%。模型与这一模式相呼应，和分别提高到20.06%和41.77%。

总体来说，策略在和模型中提供了最一致的改进，增强了和指标。相反，与基线相比，和策略通常会导致较低的性能，这表明这些优化方法对于本研究中使用的模型和数据集可能不那么有效。

讨论

图7和图8所示的拟合曲线描述了集成模型的性能趋势，显示了、、和训练方法随时间的增量改进和稳定性。

图7 不同权值合并策略的比较，每个子图显示了训练过程中每个模型的mAP指标

图8 不同权值合并策略的比较，每个子图显示了训练过程中每个模型的NDS指标

模型的性能是在一段时期内测量的，轴表示通过训练时期的进展，轴分别表示和指标。这些子图说明了每种优化策略的不同性能轨迹。传统的训练方法始终用黑色曲线表示，这表明在所有子图上性能逐渐稳定地增加。基于和的策略，分别用红色和绿色曲线表示，表现出竞争性和经常重叠的改进，在大多数情况下，策略在性能上比策略略有优势。用蓝色曲线表示的策略，与其他策略相比，始终显示出更保守的改进速度，这表明可能存在不同的收敛概况。

从图8中可以看出，方法的性能逐渐提高，达到平台期，表明性能在一定数量的后趋于稳定。方法的性能似乎比略好，这表明在算法中加入权重可能会提供性能上的适度改进。方法表现出波动，这可能意味着它更有效地利用某些时代，尽管它也可能更容易过度拟合或不太可泛化。相比之下，传统训练方法在整个epoch中保持较低的性能水平，表明与其他方法相比，传统训练方法的性能更稳定，但可能优化程度较低。来自验证集的实验结果，如表六所示，提供了对不同集成策略的性能影响的见解。

表6 8种模型在nuscenes val数据集上的预训练对比结果

对比显示，与模型的基线相比，和策略通常会导致性能下降。例如，模型显示，从21.82% ()下降到19.73% ()，从33.31%下降到29.78%。在相同策略下，和等模型在性能上表现出更高的一致性和稳定性。即使在贪心策略下，模型的也保持在35.88%以上，保持在46.69%以上，这表明该模型对策略引起的变化的处理更为稳健。例如，模型仅经历轻微波动，在贪心策略下的为33.88%，为42.60%，而基线分数分别为34.32%和42.32%。总之，架构似乎更善于在不同策略之间保持性能，而模型更容易受到策略引起的性能变化的影响。模型的鲁棒性可能归因于其表征学习的能力。

结论

该论文旨在开发模块化感知系统架构，支持可重用和可重构组件，为下一代汽车计算智能平台量身定制。提出的框架提供了丰富灵活的基础算法构建模块，允许开发者根据具体需求选择和组合不同的功能模块，从而促进定制化智能驾驶感知算法的快速开发。该框架可以不断扩展功能模块库，适应不同的用户需求，并具有持续学习的能力，从而缩短开发周期。

参考

[1] Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频