[论文笔记]Agile Autonomous Driving using End-to-End Deep Imitation Learning

本文探讨了使用在线和批量深度模仿学习训练策略进行敏捷自动驾驶,与模型预测控制(MPC)方法相比,深度神经网络(DNN)策略能学习到图像的低级和高级特征,且在线IL在性能上优于批量IL。研究发现,将速度信息纳入训练数据可以提高DNN策略的性能。此外,文章还列举了不同类型的自动驾驶方法,包括模仿学习和基于视觉的方法。
摘要由CSDN通过智能技术生成

Agile Autonomous Driving using End-to-End Deep Imitation Learning

2018_RSS

从经验上讲,使用在线模仿学习训练的策略比使用批量模仿学习训练的策略克服了与协变量偏移相关的挑战,并且具有更好的概括性。

传统方法:plan-then-act 具有挑战性 ,因为很难充分描述机器与环境的相互作用。

AutoRally汽车-没有任何状态估算器或在线计划,但具有直接输入来自低成本单筒摄像机和轮速传感器的测量值的DNN策略:驾驶平均速度为6 m / s,最高速度为8 m / s(相当于全尺寸汽车为108 km / h和144 km / h)

MPC方法的一些缺点:规划所需的计算成本高昂的优化必须在线进行高频处理,这对于在几圈后在轨道上导航车辆来说是重复的。状态估计也需要精确的GPS和IMU反馈,

使用IL做自动驾驶:如果专家是人类,那么在线IL所需的假设就很难在实际的公路驾驶任务中实现。在越野驾驶任务中尤其如此,因为人类驾驶员在很大程度上依赖汽车的即时反馈来克服随机干扰。因此,例如,逐帧标记方法[26]可能会导致非常违反直觉的,效率低下的数据收集过程,因为所需的动态信息会丢失在单个图像帧中。总的来说,当使用人类演示时,在线IL可能与批处理IL一样糟糕[14],这仅仅是由于人为因素引起的不一致

batch IL and online IL

总体而言,使用在线IL和批处理IL算法训练的DNN策略能够达到与MPC专家相似的速度。但是,在使用相同数量的培训数据的情况下,使用在线IL进行培

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值