强化学习与模仿学习结合论文阅读笔记 [2022 NeurlPS Waymo]

阅读笔记 Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios [2022 NeurlPS Waymo]

总结与思考:将模仿学习与使用简单奖励的强化学习相结合,大大提升驾驶策略的安全性和可靠性。
  • 但是,简单的奖励约束并不是很合理,都是要约束车辆不撞,一个约束不撞车,一个约束不撞路边。但如果非要撞一个的话,撞路边的奖励应该比撞车的奖励更高。可以考虑改进,例如用线性约束-kx+1,或者极端点用反比例函数1/x+1,但是1/x估计不是很好训网络,可能增大k最简单。

摘要:
模仿学习(IL)是一种简单而强大的方法,可以使用高质量的人类驾驶数据,这些数据可以大规模收集,以产生类似人类的行为。然而,仅基于模仿学习的政策往往不能充分考虑安全性和可靠性问题。在本文中,我们展示了模仿学习与使用简单奖励的强化学习相结合如何大大提高驾驶策略的安全性和可靠性。特别是,我们在超过10万英里的城市驾驶数据上训练了一个策略,并在按不同碰撞可能性级别分组的测试场景中衡量其有效性。我们的分析表明,虽然模仿可以在演示数据覆盖的低难度场景中表现良好,但我们提出的方法显着提高了最具挑战性场景的鲁棒性(失败率降低了38%以上)。据我们所知,这是首次将模仿和强化学习相结合的方法应用于利用大量现实世界人类驾驶数据的自动驾驶。

1. 引言

建立一个可大规模部署的自动驾驶系统存在许多困难。首先也是最重要的是处理现实驾驶中出现的众多罕见和具有挑战性的边缘情况的挑战。为此,已经提出了基于模仿学习的方法,允许方法的性能随着可用数据量的增加而扩展[1],[2],[3]。虽然在演示数据中很好地表示的情况可能会被这种策略正确处理,但在数据中很少出现的更不寻常或危险的情况可能会导致模仿策略(没有明确指示什么构成风险或不适当的响应)做出不可预测的响应。复杂的交互使问题更加复杂,在类似的场景中,人类专家的驾驶数据可能是稀缺的和次优的[4]。

即现有模仿学习在长尾场景下表现较差

强化学习(RL)有可能通过利用明确的奖励函数来解决这个问题,该函数告诉策略什么构成安全或不安全的结果(例如,碰撞)。此外,由于强化学习方法在闭环中训练,强化学习策略可以在观察、行动和结果之间建立因果关系。这就产生了以下策略:(1)不太容易受到开环IL[5],[6]中常见的协变量移位和虚假相关性的影响,以及(2)意识到其奖励函数中编码的安全考虑,但这些考虑仅隐含在演示中。

然而,仅仅依靠强化学习,例如[7],[8],[9],也存在问题,因为它严重依赖于奖励设计,这是自动驾驶中的一个公开挑战[10]。如果不考虑模仿保真度,用强化学习训练的驾驶策略在技术上可能是安全的,但不自然,在需要人类驾驶行为与其他代理协调并遵循驾驶惯例的情况下,可能很难取得进展。IL和RL具有互补优势:IL提高了现实性,减轻了奖励设计负担,而RL提高了安全性和鲁棒性,特别是在缺乏丰富数据的罕见和具有挑战性的场景中(图1)。
在这里插入图片描述

在本文中,我们将重点放在最有可能表现出安全和可靠性问题的驾驶场景上,利用[11]中的难度估计。我们提出的BC-SAC方法将IL和RL与一个简单的奖励函数结合起来,并在困难的驾驶场景下进行训练。困难是当用预先训练的计划策略重新模拟时,通过一个分类器来估计碰撞或未遂的可能性。我们提出的奖励函数增强了智能体的安全性,而自然驾驶行为是通过IL隐式学习的。训练数据来自真实世界人类驾驶数据的一个子集(超过10万英里的真实世界城市驾驶数据)[11]。我们证明,这种方法大大提高了通过模仿学习的策略的安全性和可靠性,而不会影响类人行为,比纯IL和RL基线分别提高了38%和40%。

我们工作的主要贡献是:(1)我们利用大量真实世界的城市人类驾驶数据(超过10万英里)和一个简单的奖励函数,在自动驾驶中首次大规模应用了IL和RL相结合的方法。(2)我们通过按难度对数据集进行切片,系统地评估了它的性能和基线性能,证明IL和RL相结合比仅从模仿中学习的策略提高了策略的安全性和可靠性(在最困难的桶上安全事件减少了38%以上)。

2. 相关工作

基于学习的自动驾驶方法。我们在表1中简要总结了不同的基于学习的规划算法的关键特性。IL是最早和最流行的用于导出驾驶策略的基于学习的方法之一[1],[2],[24],[25],[26],[27]。用IL[3]、[28]或RL[8]训练的可控模型允许用户以目标或控制信号(如左、右、直)的形式指定高级命令,将高级路线规划与低级控制相结合。
在这里插入图片描述

“隐”强化学习:即直接将安全意识作为奖励结合到模型学习过程。

IL方法的两个缺点是:(1)开环IL(如广泛使用的行为克隆方法[12],[14],[13],[29],[30])存在协变量移位5;(2)IL方法缺乏关于什么是良好驾驶的明确知识,如避碰。已经提出了RL方法,允许策略通过闭环训练从明确的奖励信号中学习,并已应用于诸如车道保持[31],交叉路口穿越[32]和变道[33]等任务。虽然这些工作显示了强化学习在特定场景下的有效性,但我们的工作分析了大规模、综合性能以及具有挑战性和安全关键的边缘情况,这些情况使得自动驾驶难以在现实系统中部署。

RL和其他自动驾驶闭环方法通常使用模拟进行训练。有许多这样的公共环境,它们的逼真程度各不相同,特别是驱动模拟代理的因素(例如,专家跟随/日志回放[34],[35],[36],[37],智能驾驶模型(IDM)[38],或其他基于规则的系统[39]和基于ml的代理[38],[40]),以及场景是程序生成的(例如,[39],[41],[40])还是从现实驾驶场景中初始化[42],[36],[34],[37]。在我们的实验中,我们在真实世界的数据上进行闭环开发和评估,其他代理遵循日志。

IL和RL的结合。DQfD[22]、DDPGfD[43]和DAPG[44]等方法表明,IL可以帮助强化学习克服已知稀疏奖励域的勘探挑战。离线RL方法,如TD3+BC[21]和CQL[20],将RL目标与IL目标结合起来,使q学习更新规范化,避免高估分布外值。我们的目标不是提出一种IL和RL的新算法组合,而是利用这种通用方法来解决大规模自动驾驶中的挑战。

解决自动驾驶汽车的挑战和安全关键场景。[4]通过使用IL规划器集合结合模型预测控制来学习解决自动驾驶中长尾场景的策略。另一种提高安全性的方法是用基于规则的回退层来增强学习规划器,以保证安全性[45],[25]。我们的工作与这些方法不同,因为我们通过奖励直接将安全意识纳入模型学习过程。如果需要,我们的方法也与回退层兼容,尽管我们认为这是潜在的未来工作。提高策略鲁棒性的另一种方法是在训练过程中增加负面例子的频率。[46]收集的故障数据涵盖了无人机可能坠毁的各种方式,并且将负面和正面数据结合起来有助于训练更稳健的策略。[11]研究了课程培训的使用,以提高在具有挑战性的边缘情况下的绩效。虽然我们也在训练期间增加了策略对具有挑战性的场景的暴露,但我们通过展示RL如何在最困难的场景中产生巨大的改进来扩展这些发现。

3. 背景

a .马尔可夫决策过程(MDP)
在这项工作中,我们将自动驾驶策略学习问题视为马尔可夫决策过程。

按照标准的形式,我们将MDP定义为一个元组在这里插入图片描述
S和A分别表示状态空间和动作空间。T为过渡模型。R表示奖励函数,γ表示折现因子。ρ0表示初始状态分布。目标是找到一个策略π,一个从S到a的(随机)映射,它使预期奖励折现和最大化,
在这里插入图片描述

模仿学习(IL)通过模仿专家来构建最优策略。我们假设一个专家(一个最优策略),表示为πβ,通过与环境的相互作用产生一个轨迹为D = {0, a0,···,sN, an}的数据集。学习者的目标是训练一个模仿πβ的策略π。在实践中,我们只观察专家状态,因此我们使用逆动力学来估计专家行为。例如,行为克隆(BC)通过对数似然目标Es,a ~ D [log π(a|s)]来训练策略。或者,闭环方法包括逆RL (IRL)[15]和对抗IL (GAIL [16], MGAIL[17]),其目的是更直接地匹配政策与专家之间的占用度量或状态-动作-访问分布,而不是间接地通过条件动作分布。原则上,这可以解决影响开环模仿的协变量移位问题[5]。

C.强化学习(RL)强化学习旨在通过迭代、在线试错过程学习最优策略。在这项工作中,我们使用off-policy, value-based RL算法,如Qlearning。这些方法旨在学习状态-动作值函数,定义为从特定状态和动作开始时的期望未来收益:
在这里插入图片描述

在这项工作中,我们使用行为者-批评家方法来训练连续控制策略。典型的演员-评论家方法在训练评论家Q最小化Bellman误差和训练演员π最大化价值函数之间交替进行。我们使用entropy-regularized更新软Actor-Critic (SAC) [19]

在这里插入图片描述
在这里插入图片描述

我们希望设计一种从IL和RL的互补优势中受益的方法。模仿在不需要奖励设计的情况下提供了丰富的学习信号来源,强化学习在数据稀缺的罕见和具有挑战性的情况下解决了强化学习的弱点。根据这种直觉,我们制定了一个目标,利用来自数据丰富的演示的学习信号和数据稀缺的奖励信号。具体来说,我们使用了IL和RL目标的加权混合:
在这里插入图片描述

A. Behavior Cloned Soft Actor-Critic (BC-SAC)
虽然原则上各种强化学习方法都可以与IL相结合来优化Eq. 4,但高效训练的一个方便选择是使用Actor-Critic算法,在这种情况下,只需将模仿学习目标添加到q函数(即评论家)的期望值中,就可以针对Eq. 4进行策略优化,类似于DAPG[23]或TD3+BC[21]。在广泛使用的SAC框架的基础上,进一步为参与者添加了熵正则化目标,我们得到了完整的参与者目标:
在这里插入图片描述

批评家的更新与SAC中的相同,如公式1所示。通过适当的λ设置,该目标鼓励策略在数据分布d内模仿专家数据。然而,在非分布状态下,策略主要依赖奖励来学习。图2可视化了这个概念。
在这里插入图片描述
B. 奖励函数
设计一个奖励函数来捕捉“良好”的驾驶行为是一个公开的挑战[10],我们可以避开这个问题,依靠模仿学习损失来主要指导策略,而简单的奖励函数只需要编码安全约束。为此,我们结合碰撞和越野距离作为奖励信号。碰撞奖励是:
在这里插入图片描述
其中,dcollision是自我车辆与其他车辆的最近边界框之间最近点的欧几里得距离,单位为米;直流偏移量(默认为1.0)是为了鼓励车辆与附近物体保持距离而添加的偏移量。越野奖励是
在这里插入图片描述
其中dto-edge是车辆到最近的道路边缘的距离,单位为米(负为公路,正为越野)。Do偏移量(默认1.0)是一种偏移量,用于鼓励车辆与道路边缘保持一定距离。

我们将奖励相加,使R = Rcollision + off-road。

个人觉得这里的奖励规则不合理吧,都是要约束车辆不撞,一个约束不撞车,一个约束不撞路边。但如果非要撞一个的话,撞路边的奖励应该比撞车的奖励更高。
C. Forward and Inverse V ehicle Dynamics Models

我们使用自行车运动学动力学模型[47]更新车辆的状态,该模型计算给定转向和加速动作a = (asteer, aaccel)时车辆的下一个姿态(x, y, θ)。为了获得模仿学习的专家动作,我们使用逆动力学模型来求解与数据集中记录轨迹相同状态的动作。这些专家动作是通过最小化角(x, y)位置在推断状态T (st, at)和下一个真实状态st+1之间的MSE来找到的

D. Model Architecture

我们使用了类似于TD3和SAC[48],[19]的双行为者-评论架构:主要组成部分是行为者网络π(a|s),双Q-评论网络Q(s, a)和目标双Q-评论网络¯Q(s, a)。

每个网络都有一个独立的Transformer观测编码器,如[49]所述,该编码器编码的特征包括所有车辆状态、道路图点、交通灯信号和路线目标。行动者网络输出一个由均值µ和方差σ参数化的tanhsquash对角高斯分布。

E. Training on Difficult Examples

基于学习的方法的性能在很大程度上取决于训练数据的分布,特别是在具有长尾分布的安全关键设置中[50],[51],[45],[52],[53])。自动驾驶就属于这一类:大多数场景都很普通,但也有相当一部分场景存在严重的安全问题。之后[11]证明了在更困难的示例上进行训练比使用无偏训练分布获得更好的性能,我们探讨了训练分布如何影响方法性能。

5. 实验

A.实验设置
数据集。我们使用的数据集(标记为All)由超过10万英里的专家驾驶轨迹组成,分为10秒段,从旧金山(SF)的车队中收集[11]。我们将这些部分分为640万用于训练和10万用于测试。同一车辆在同一天运行的轨迹存储在同一分区中,以避免列车测试泄漏。轨迹以15 Hz的频率采样,包含描述自动驾驶汽车(av)状态和由自动驾驶汽车感知系统测量的环境状态的特征。我们使用[11]所描述的难度模型作为度量事件稀缺性的代理,因为很难直接构建场景级别的分布外估计器,并且具有挑战性的场景通常不太频繁。给定一个已运行的路段,难度模型预测,当使用内部a - V规划器重新模拟时,路段是否会导致碰撞或险些相撞。我们使用交叉熵损失在一个由5.6k个正例和80k个负例组成的数据集上以监督的方式训练难度模型,并使用二元人类标签。我们通过选择难度模型得分的前1% (40k训练,1.2k测试)、10% (400k训练,19k测试)和50%(200万训练,66k测试),分别从一个按时间顺序独立的400万个片段数据集中创建了Top1、Top10和Top50子集。

模拟
如第IV -C节所述,车辆动力学使用二维自行车动力学模型建模。场景中其他车辆和行人的行为从日志中重播(log-playback),类似于[34]、[35]、[36]。虽然这意味着代理是非反应性的,但它确保了其他代理的行为与人类相似,并且包含模仿损失可以阻止学习策略偏离日志太远,这将导致日志回放代理变得不现实。我们还使用10秒的短片段来缓解姿势差异。

基线
我们将我们的方法与开环(BC[1])和闭环(MGAIL[17])模拟方法进行了比较。后者利用了闭环训练和模拟器动力学的可微性。为了完整起见,我们还包含了一个SAC基线来表示仅使用rl的方法.

指标。
我们使用两个指标来评估代理:1)失败率:在任何时间步长至少有一个碰撞或越野事件的运行段的百分比。如果自我车辆的边界框与另一个物体的边界框相交,则碰撞为true。如果自我车辆的边界框偏离地图上的可驾驶表面,则为Off-road。

2)路线进度比:策略沿路线行驶的距离与专家演示的距离之比。我们将自我车辆的状态投射到路线上,并计算从路线开始的总长度。

B. 结果

我们评估了基线方法(BC, MGAIL, SAC)和我们的方法(BC-SAC)在训练数据集的几个子集(All, Top10和Top1)上训练,并根据表II中评估集的子集(Top1, Top10, Top50, All)进行评估。所有配置都用三个随机种子进行评估,报告平均值和标准差。先前,[11]表明在Top10上训练MGAIL与在All上训练产生相似的性能。同样,我们发现所有方法在Top10上训练时都表现最好。值得注意的是,在Top1上训练的BC的表现明显不如在All或Top10上训练的BC,这反映了模仿学习方法依赖于大量数据来隐式推断驾驶偏好的事实。相比之下,BC-SAC在Top1上训练时表现稳健。考虑到所有方法在Top10上训练时表现最好,我们将在以下小节中关注该设置。

BC- sac与模拟方法(BC、MGAIL)在挑战性场景下的比较。图4根据难度级别比较了BC- sac与BC和MGAIL在评估数据集切片上的差异。

BC- sac总体上实现了更好的性能,特别是在BC和MGAIL的性能显著下降的更具挑战性的切片中。此外,BC- sac在不同难度情境下的表现差异最小(σ = 0.37),而BC (σ = 1.29)和MGAIL (σ = 0.78)。

BC-SAC与纯rl训练(SAC)的比较。在所有配置中,BC-SAC在安全指标方面优于SAC(表2),可能是因为BC-SAC还利用了来自大量演示的学习信号。SAC生成的动作明显偏离演示,具有更多的边界动作值,从而产生不自然(更多转向)和不舒服(突然加速)的驾驶行为(图5)。

对于BC损失,BC- sac生成一个类似于日志的操作分布。

奖励塑造和RL / IL权重。我们进行了一组消融研究,以回答奖励函数的形式以及RL和模仿成分的权重如何影响最终表现。我们使用了一个较小的数据集,该数据集是通过抽取10%的Top10数据构建的,并进行比较:(1)我们的全部奖励与。

离散二进制奖励(图6右),(2)越野和碰撞奖励项权重(图6左),(3)越野和碰撞偏移参数(图7),(4)目标中RL和IL项的权重(图8)。

结果表明,在适当选择奖励参数的情况下,所提出的形状奖励比更简单的稀疏奖励提高了整体性能,并且模仿和强化学习之间的平衡导致了最佳性能。

Progress-safety平衡。当我们的工作集中在安全关键场景时,在图8右中,我们展示了引入少量的进度奖励会导致更多的进度,而不会在安全度量中产生重大的回归。然而,大的进度奖励会导致性能下降。

深入的故障分析。表III给出了对Top1和Top10桶中80个采样场景的故障模式的详细分析。我们将失败分为6大类。CLIP(剪贴):车辆在行驶过程中与侧面物体碰撞时发生的小碰撞。OFF (OFF -road):座席驶离道路时发生故障。LAN(坏车道):代理侵入另一个车道,要么是错误的车道,要么是错误的合并,导致碰撞。COLL(碰撞):规划代理有过错而撞向另一辆车的碰撞。RED(红灯):违反红灯导致碰撞。最后,DIV(日志发散):由于日志发散,sim代理与规划代理发生碰撞。。

总的来说,MGAIL倾向于有更多的剪切碰撞和越野事件。图9显示了RL优于IL的两种情况。我们假设我们的方法在这些情况下有所改善,因为MGAIL作为一种模仿方法,缺乏对碰撞的明确惩罚,因此在其他现实行为中对小碰撞不敏感。另一方面,BC-SAC遇到的碰撞往往不是直接由A - V计划器的行为造成的,而是计划器偏离了日志,因此它被其他车辆撞到了。

因为BC-SAC也没有明确地奖励遵守交通规则(尽管它通过模仿继承了这种行为),我们也看到了由于这一点而导致的少量失败。

5. 结论
我们提出了一种在具有挑战性的驾驶场景中实现鲁棒自动驾驶的方法,该方法将模仿学习与强化学习(BC-SAC)相结合,并与简单的安全奖励相结合,并在真实驾驶的大型数据集上进行训练。总体而言,该方法显著提高了挑战性场景下的安全性和可靠性,与仅使用il和rl基线相比,最困难场景下的安全事件减少了38%以上。

我们广泛的实验检验了训练数据集、奖励塑造和IL / RL客观术语的作用。

BC-SAC从模仿中继承了隐含的类似人类的驾驶行为,而RL则是处理非分布安全场景的故障保险。与仅IL设置类似,在IL和RL组合设置中,对最具挑战性的前10%场景进行训练产生最稳健的性能。虽然这项工作主要集中在优化与安全相关的奖励,但自然也会将其他因素纳入目标,如进度、交通规则遵守和乘客舒适度。除了奖励函数之外,这种方法并没有考虑到其他智能体在响应自我载体的非分布行为时的意外行为,而且它仍然需要启发式地选择IL和RL目标之间的权衡。

一个有希望的未来工作方向将是使反应性sim代理能够用于培训和评估,并扩展方法以强制执行安全作为明确的约束,也许与减轻分配转移的方法相结合。

  • 11
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智驾攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值