自动驾驶中的模仿学习

创建于2021-3-2

  1. 背景

传统的模块化方法(modular approaches, or modular pipelines, MP)占据了工业界应用的主流。但是,end-to-end behavior cloning 端到端的行为克隆提供了一种可选的范式(paradigm):

  • 采用一个深度神经网络同时学习感知和控制的映射 ,采用模仿学习从人类示教(human demonstrations)得到感知动作控制器(sensorimotor controller).
  • 不需要定义明确的sub-tasks,其可以从数据中implicitly学习到
    例如,自动驾驶任务中,传统方法是设计多个模块,如 感知、定位、规划、决策、控制;而行为克隆的模仿学习范式中,不需要为车辆费力而精心编写各种具体的应变程序,而是直接从传感器采集的输入(sensory input),如单福RGB图像, 实现对与输入关联的pattern的认知,并直接映射为某种期望的反应,如产生车辆控制参数从而控制车辆实现某种机动行为。
  1. 优点
  • 行为克隆的范式允许直接学习大量的人类驾驶车辆的数据作为示教数据,不需要额外手工标注数据(manually labeled data);
  • 端到端模仿学习可以离线学习,并且以安全的方式(in a safe way)。这一点是强化学习欠缺的,强化学习往往需要从环境中通过大量的trial and error的交互运行(真实世界),或者高度可信的(faithful)仿真交互运行。
  1. 缺点

    • generalization due to domain shift, 即域偏移问题,也就是离线训练的经验域和在线运行行为域两个域之前的偏移。这是所熟知的分布偏移问题(distributional shift between the training and testing distributions)。一般需要 on-policy的数据收集。
    • generalization due to data bias,以及lack of a causal model 缺乏因果模型。使得在经过一定量(a certain amount)的示教训练后,出现了diminishing returns(收益递减)现象,甚至针对unseen环境出现了性能退化的特点(characterize a degradation of performance on unseen envir.)
    • High variance. 深度神经网络中的一个关键问题high variance,模仿学习尤其容易受到该问题的影响,表现为significant variability in generalization performance对初始化和采样顺利特别敏感。 如果变化initialization或者训练样本顺序,泛化性能不稳定,这一问题与on-policy的RL相似。说明训练样本的顺序(order)对于off-policy imitation learing来说很重要。
  2. 现有努力和趋势(不完全统计,待补充)
    虽然一般可通过数据增广技术(data augmentation)部分解决。但是现有研究表明,这种方式也不能证明可以增广至所有驾驶行为情形(scale to full spectrum of driving behaviors),例如针对dense traffic scene中存在很多动态智能体的场景,现有方法仍很难可靠应对。因此,对复杂条件的泛化性仍是一个有很大改进空间的开放问题。
    为了address复杂驾驶条件下的端到端算法,并有利于进行a large scale analysis,Felipe Codevilla在2019年的ICCV论文中提出了一个新的benchmark- NoCrash,该benchmark基于开源CARLA模拟器构建,可实现可重复的(reproducible)大规模(large scale)的离线训练和在线评估(on-line evaluation),数据包括各种不同条件下的80小时驾驶,可以评估不同端到端算法的泛化性能(generalization performance), 包括训练环境和unseen 环境。
    但是,从仿真到现实世界进行策略迁移(transferring policies from simulation to the real-world)是一个公开的问题,近年来取得了一些鼓舞的结果。

Ref:

  1. Codevilla, F., et al. Exploring the limitations of behavior cloning for autonomous driving. in Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值