数据闭环转动，决策规划算法驶入「快车道」

本文链接：https://blog.csdn.net/Evelynnzhao/article/details/137339941

本文探讨了自动驾驶算法中的感知、决策规划模块，特别是重点介绍了数据闭环体系如何通过融合路测、人驾和仿真数据，以及NN-Planner变道决策算法，提升自动驾驶系统的灵活性、安全性和效率。通过实例展示了数据驱动方法在复杂路况下的优势，以及与规则算法的比较结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自动驾驶算法由感知、决策规划、控制三个模块构成。感知模块就像汽车的「五官」，观察、感知世界。规控模块则是汽车的「大脑」，直接影响到自动驾驶车辆的驾驶行为，例如变道决策、行进路线、加减速以及绕障等驾驶行为。

良好的决策规划系统应该兼顾安全、通行效率以及乘坐人员的舒适性：

基于规则的决策规划方法，通常利用状态机或者决策树构建系统的运行逻辑，在自动驾驶算法开发的早期阶段能被快速开发和验证，实现起来简单、直观。在商业落地中，决策规划系统广泛依赖基于规则的算法。

然而，由于自动驾驶存在的复杂性和长尾场景，这些规则的可扩展性成为了自动驾驶技术进阶的一大挑战：

一方面人工设定的有限状态和跳转规则往往只能覆盖一部分限定的情况。

另一方面，随着系统的迭代，前后引入的规则之间可能会有相互冲突。

区别于基于规则的算法，数据驱动的自动驾驶算法会将持续增长、积累的驾驶行为数据用于算法的优化，因此数据闭环在决策规划模块的应用也日益受到业界的重视。

我们希望通过构建一个面向决策规划算法的数据闭环体系，以及相应的数据驱动决策规划算法库，让自动驾驶系统可以像经验丰富的老司机一样开车，创造灵活、高效、安全、舒适的行程。

｜数据闭环体系如何加速决策规划算法进化？

数据驱动的决策规划算法体系，需要以驾驶数据为核心，串联起深度学习算法模型的设计、训练、评测以及迭代的全流程。

具体来说，这里提到的数据可以分为三种类型：

路测数据：运行自驾系统过程中产生和记录的数据，涵盖自动驾驶正常行驶的数据及其过程中产生的安全员接管数据。
人驾数据：非路测目的的、由人类司机驾驶产生的数据。
仿真数据：根据路测得到的实际路况在仿真器直接重放或人工修改后重放的数据。

下图呈现了各数据流及其相关算法开发流程：

路测数据：全量信息「非必要」，数据质量优先级更高

路测数据来自于商汤绝影丰富的落地场景，涵盖了全量信息的路测数据十分庞大。因此在利用数据时，需要有针对性地提取有价值的场景信息，如导航信息、实时定位、地图、障碍物、行人以及他车等全量信息，以提高数据的信息密度和信息质量，加快算法迭代速度。

此外，在自动驾驶过程中，若出现安全员接管，我们能够获取接管信息作为负反馈，用此部分数据训练模型。

人驾数据：人类驾驶「高光时刻」，为自动驾驶算法注入灵魂

与路测数据不同，人驾数据采集效率相对较低，但这类数据是「拟人化」决策规划算法的「灵魂」。

例如：在一些车况复杂的路段中，自车与他车交互博弈的同时，还要完成导航路径上的变道指令，变道时机的选择往往十分困难。对于经验丰富的人类驾驶员而言，决策时全凭「感觉」，其可解释性低，难以用规则语言描述完整。但也正是这种略带模糊的「玄学」策略，往往巧妙地找到较优的行驶路线，避免激进危险或过于保守的情况。

人驾数据就是通过记录这些人类司机的「高光时刻」，能够引导算法模仿人类的驾驶行为，使自动驾驶算法不断优化。人驾数据虽然数量级不及路测数据，但数据质量却很高。

仿真数据：长尾场景「爆破点」

路测数据以及人驾数据均来自于真实世界，对算法的实际运行效果有着直接的作用。然而，真实世界的长尾场景（corner case）数量大、频次低、场景复杂，且可复现性低。

对于一些相对频繁的问题种类，我们需要构建有一定数量的测试集，通过离线测试、统计算法的量化结果来验证算法迭代的有效性。仿真数据则可以用来支持这样的测试。

不同于完全使用虚拟场景构建的仿真数据，我们的仿真数据构建是基于现实重建的仿真场景，在此基础上做一定的扰动和扩增。这样的做法可以提升仿真环境的真实性和复杂性。因此，仿真数据是加速算法迭代和验证的有效工具。

综合上述数据，算法迭代的大体可以分为三个阶段：

起始阶段：由于缺少足够的数据量，先使用基于规则的自动驾驶系统，产生大量的自动驾驶路测数据，启动模型的训练，快速得到初始模型，此时的模型性能和基于规则的方法相差不大。

第二阶段：在训练数据中逐步增加采集的人驾数据，融合人驾数据和自动驾驶数据得到第二版模型，此时的模型已经体现出一定的拟人化能力。

第三阶段：日常路测和运营的数据持续回流，经过半自动化数据筛选，将有价值的数据片段导入模型训练流程，驱动算法迭代。

｜数据驱动的 NN-Planner 变道决策算法框架

基于以上的数据闭环体系，我们以变道决策算法为例，描述数据闭环体系下的 NN (neural network)-Planner 变道决策算法。

对于决策规划模块，输入数据来自感知、定位以及全局导航模块，此部分包含自车周边的地图信息、他车及行人的感知结果、以及全局导航路径（即道路级的行驶路线）。

输入数据进入决策规划模块后，预测算法首先会输出他车在未来一段时间内的移动轨迹。结合这些轨迹时空信息以及地图信息，策略采样算法进行多策略的轨迹采样。例如，在直行车道行驶时，可以同时采样三种可能的策略：左变道、右变道以及直行。

1.）对每一种策略，我们给定导航、定位、地图以及他车未来的轨迹，以构建一个多目标的优化问题，描述自车与他车的交互，先求解出一条安全可行的轨迹。

2.）同时，每一个策略可以求解出对应的局部行驶轨迹，形成一个候选轨迹集合。

3.）NN-Planner 变道决策算法则结合当前的环境信息，在候选轨迹中选出最优轨迹，移交控制执行模块。

变道功能

在实际应用中，变道决策算法可以为自动驾驶系统实现两个功能：导航变道与效率变道。

1.）导航变道：依据全局导航信息，自车做出的相应变道。例如，在给定的全局导航路径中，自车在前方的路口需要直行或者左/右转，自车通过导航变道提前行驶到对应的车道。

2.）效率变道：在不违反导航路径的前提下灵活选择车道、提高通行效率。例如，遇到因故障车等原因导致车流缓慢甚至堵塞的车道，自车提前变道，选择高效通行的车道。

匹配候选轨迹

下图可以看出，网络对于每个输入来源都单独经过一个编码器网络提取特征，然后使用一个信息融合模块：比如可以通过一个轻量级的 Transformer 模型，对不同模态数据的特征进行融合，得到一个描述当前环境状态的特征。而后，打分模块结合环境状态特征以及候选轨迹特征，对候选轨迹进行打分。