数据闭环转动,决策规划算法驶入「快车道」

4 篇文章 0 订阅
2 篇文章 0 订阅
本文探讨了自动驾驶算法中的感知、决策规划模块,特别是重点介绍了数据闭环体系如何通过融合路测、人驾和仿真数据,以及NN-Planner变道决策算法,提升自动驾驶系统的灵活性、安全性和效率。通过实例展示了数据驱动方法在复杂路况下的优势,以及与规则算法的比较结果。
摘要由CSDN通过智能技术生成

自动驾驶算法由感知、决策规划、控制三个模块构成。感知模块就像汽车的「五官」,观察、感知世界。规控模块则是汽车的「大脑」,直接影响到自动驾驶车辆的驾驶行为,例如变道决策、行进路线、加减速以及绕障等驾驶行为。

良好的决策规划系统应该兼顾安全、通行效率以及乘坐人员的舒适性

基于规则的决策规划方法,通常利用状态机或者决策树构建系统的运行逻辑,在自动驾驶算法开发的早期阶段能被快速开发和验证,实现起来简单、直观。在商业落地中,决策规划系统广泛依赖基于规则的算法

然而,由于自动驾驶存在的复杂性和长尾场景,这些规则的可扩展性成为了自动驾驶技术进阶的一大挑战:

一方面人工设定的有限状态和跳转规则往往只能覆盖一部分限定的情况。

另一方面,随着系统的迭代,前后引入的规则之间可能会有相互冲突。

区别于基于规则的算法,数据驱动的自动驾驶算法会将持续增长、积累的驾驶行为数据用于算法的优化,因此数据闭环在决策规划模块的应用也日益受到业界的重视。

我们希望通过构建一个面向决策规划算法的数据闭环体系,以及相应的数据驱动决策规划算法库,让自动驾驶系统可以像经验丰富的老司机一样开车,创造灵活、高效、安全、舒适的行程。

|数据闭环体系如何加速决策规划算法进化?

数据驱动的决策规划算法体系,需要以驾驶数据为核心,串联起深度学习算法模型的设计、训练、评测以及迭代的全流程。

具体来说,这里提到的数据可以分为三种类型:

  • 路测数据:运行自驾系统过程中产生和记录的数据,涵盖自动驾驶正常行驶的数据及其过程中产生的安全员接管数据。

  • 人驾数据:非路测目的的、由人类司机驾驶产生的数据。

  • 仿真数据:根据路测得到的实际路况在仿真器直接重放或人工修改后重放的数据。

下图呈现了各数据流及其相关算法开发流程:

图片

  • 路测数据:全量信息「非必要」,数据质量优先级更高

路测数据来自于商汤绝影丰富的落地场景,涵盖了全量信息的路测数据十分庞大。因此在利用数据时,需要有针对性地提取有价值的场景信息,如导航信息、实时定位、地图、障碍物、行人以及他车等全量信息,以提高数据的信息密度和信息质量,加快算法迭代速度。

此外,在自动驾驶过程中,若出现安全员接管,我们能够获取接管信息作为负反馈,用此部分数据训练模型。

  • 人驾数据:人类驾驶「高光时刻」,为自动驾驶算法注入灵魂

与路测数据不同,人驾数据采集效率相对较低,但这类数据是「拟人化」决策规划算法的「灵魂」

例如:在一些车况复杂的路段中,自车与他车交互博弈的同时还要完成导航路径上的变道指令,变道时机的选择往往十分困难。对于经验丰富的人类驾驶员而言,决策时全凭「感觉」,其可解释性低,难以用规则语言描述完整。但也正是这种略带模糊的「玄学」策略,往往巧妙地找到较优的行驶路线,避免激进危险或过于保守的情况。

人驾数据就是通过记录这些人类司机的「高光时刻」,能够引导算法模仿人类的驾驶行为,使自动驾驶算法不断优化。人驾数据虽然数量级不及路测数据,但数据质量却很高。

  • 仿真数据:长尾场景「爆破点」

路测数据以及人驾数据均来自于真实世界,对算法的实际运行效果有着直接的作用。然而,真实世界的长尾场景(corner case)数量大、频次低、场景复杂,且可复现性低

对于一些相对频繁的问题种类,我们需要构建有一定数量的测试集,通过离线测试、统计算法的量化结果来验证算法迭代的有效性。仿真数据则可以用来支持这样的测试。

不同于完全使用虚拟场景构建的仿真数据,我们的仿真数据构建基于现实重建的仿真场景,在此基础上做一定的扰动和扩增这样的做法可以提升仿真环境的真实性和复杂性。因此,仿真数据是加速算法迭代和验证的有效工具。

综合上述数据,算法迭代的大体可以分为三个阶段:

起始阶段:由于缺少足够的数据量,先使用基于规则的自动驾驶系统,产生大量的自动驾驶路测数据,启动模型的训练,快速得到初始模型,此时的模型性能和基于规则的方法相差不大。

第二阶段:在训练数据中逐步增加采集的人驾数据,融合人驾数据和自动驾驶数据得到第二版模型,此时的模型已经体现出一定的拟人化能力

第三阶段:日常路测和运营的数据持续回流,经过半自动化数据筛选,将有价值的数据片段导入模型训练流程,驱动算法迭代。

|数据驱动的 NN-Planner 变道决策算法框架

基于以上的数据闭环体系,我们以变道决策算法为例,描述数据闭环体系下的 NN (neural network)-Planner 变道决策算法。

图片

对于决策规划模块,输入数据来自感知、定位以及全局导航模块,此部分包含自车周边的地图信息、他车及行人的感知结果、以及全局导航路径(即道路级的行驶路线)。

输入数据进入决策规划模块后,预测算法首先会输出他车在未来一段时间内的移动轨迹。结合这些轨迹时空信息以及地图信息,策略采样算法进行多策略的轨迹采样。例如,在直行车道行驶时,可以同时采样三种可能的策略:左变道、右变道以及直行。

1.)对每一种策略,我们给定导航、定位、地图以及他车未来的轨迹,以构建一个多目标的优化问题,描述自车与他车的交互,先求解出一条安全可行的轨迹

2.)同时,每一个策略可以求解出对应的局部行驶轨迹,形成一个候选轨迹集合

3.)NN-Planner 变道决策算法则结合当前的环境信息,在候选轨迹中选出最优轨迹,移交控制执行模块。

  • 变道功能

在实际应用中,变道决策算法可以为自动驾驶系统实现两个功能:导航变道与效率变道

1.)导航变道依据全局导航信息,自车做出的相应变道。例如,在给定的全局导航路径中,自车在前方的路口需要直行或者左/右转,自车通过导航变道提前行驶到对应的车道。

2.)效率变道在不违反导航路径的前提下灵活选择车道、提高通行效率。例如,遇到因故障车等原因导致车流缓慢甚至堵塞的车道,自车提前变道,选择高效通行的车道。
 

  • 匹配候选轨迹

下图可以看出,网络对于每个输入来源都单独经过一个编码器网络提取特征,然后使用一个信息融合模块:比如可以通过一个轻量级的 Transformer 模型,对不同模态数据的特征进行融合,得到一个描述当前环境状态的特征。而后,打分模块结合环境状态特征以及候选轨迹特征,对候选轨迹进行打分。

图片

在算法实现上,网络训练目标的设计是难点。在数据闭环体系里,我们可以通过离线的数据获得自车实际的轨迹,使用模仿学习算法训练,让模型对自车实际轨迹相似的候选轨迹打高分。

然而,因为自车的周边环境是动态变化的,自车实际的轨迹和候选轨迹往往存在差异。因此需要设计合理的轨迹相似度函数,以衡量自车实际轨迹和候选轨迹的差异,及相应的目标损失函数。

在此,仿真数据就起到加速算法迭代的重要作用,即通过设计不同的轨迹相似度函数监督模型训练,快速地在仿真环境下试错验证。

未来,我们也可以进一步把强化学习的思路引入到轨迹相似度函数的设计中。


|NN-Planner 变道决策算法实测效果

通过结合人类司机驾驶的数据,NN-Planner 变道决策算法比基于规则的算法具有更优的决策能力(这里提到的规则包含不同策略的通行效率、行车舒适度、安全性等手动设计的逻辑规则)。

具体来说,NN-planner 算法模型的优势体现在两个方面:

  • 复杂路况变道「有方」

在车流复杂且需要变道的场景,需要考虑的因素比较多,难以为这些因素设定完美的规则,甚至不同的规则之间可能会存在相矛盾的地方

例如:有时候需要通过减速且大角度的变道,牺牲暂时的舒适性获取长远来看更高的通行效率。又或者,并入车道的车流逐渐增多,常规的安全距离限制在此场景中相对保守,需要临时放宽安全距离限制,从而尽快并入车道。

NN-Planner

如视频所示,在此路段中,前方路口需要变道左拐,然而左边车道后方一直有车,规则的方法往往较为保守、找不到变道时机。而右边画面则展示了模型方法在这种情况下果断、安全的变道策略。
 

右变道的场景

类似的右变道的场景,模型也可以处理相对复杂的车况。同时,如视频中所示,自车在变道时兼顾安全性:在足够安全之前,模型不会轻易做出变道决策,其行驶策略并不激进。

自动驾驶模型需要综合考虑多方面的因素进行权衡,而人类驾驶的训练数据为此提供了可能性。

  • 「拟人化」决策降低风险

模型可以通过数据习得拟人化的变道决策,学习老司机的开车方式,预见性地避免可能出现风险的车道。

例如视频中,在车速较快的情况下,经验丰富的司机在一些路段中偏向于走中间车道,避免最右侧的车道,因为最右侧车道可能会突然驶入车辆、或有行人闯入。
 

「拟人化」决策降低风险

除此以外,大型工程车的视野盲区相对较大,行驶过程中避免与这种车辆贴近,也会更加安全。

如视频所示,长时间的直路行驶,算法选择变道到中间车道,避免了右边车道未来可能出现的故障车。

变道远离

视频中,自车在混凝土搅拌车将要靠近时选择变道远离,而要达到这种效果,难以依靠简单的规则来完成——需要考虑车辆行驶本身的平稳性(变道转弯不能过于频繁)、导航路径以及通行效率等因素。简单地设定一个「远离工程车辆」的规则,往往会新增其他的问题

我们也将 NN-Planner 算法和基于规则的方法进行了对比。

在城区道路上,我们采集了 50KM 的人驾数据。其中既有车流较少的场景,也有上下班车况复杂的场景、低频的故障车场景等。

通过抽取其中需要变道的场景,最终得到 32 个确定需要变道的场景(包含效率变道和导航变道),在这些场景中对比模型和规则方法的变道及时性

对同一场景,可以分别观察模型和规则方法的变道行为。评价的时候,先变道者得一分,否则不得分。结果显示,模型变道的得分比规则的方法高约 30%。更及时的变道可以提高通行速度、避免错过最佳变道时间的情况。

目前,随着绝影自动驾驶技术不断落地和商业化运营,更丰富的驾驶场景数据回流,能够进行大量的开发验证以及实际路测,将帮助 NN-Planner 算法性能持续提升。

实际上,变道决策只是高阶自动驾驶的其中一环。随着数据闭环体系从数据生成、采集到算法训练、落地过程的打通,数据驱动的神经网络模型可以逐步在整个自驾规控部分扮演更大的角色。后续,商汤绝影研发团队也将在复杂路口车辆交互博弈、感知决策一体化端到端自驾算法框架等领域和议题上持续深耕。

  • 49
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值