关闭

增强学习与无人驾驶

标签: 无人驾驶
1546人阅读 评论(0) 收藏 举报
分类:

摘要: 增强学习在无人驾驶中有很高的前景。无人驾驶中需要执行一系列正确的行为才能成功的驾驶。而增强学习能够学会自动修正偏移,是其可以比较容易地学习到一系列的行为。 本文选自《第一本无人驾驶技术书》。

增强学习简介

  增强学习是最近几年机器学习领域的最新进展。增强学习的目的是通过和环境交互学习到如何在相应的观测中采取最优行为。行为的好坏可以通过环境给的奖励确定。不同的环境有不同的观测和奖励。例如,驾驶中环境的观测是摄像头和激光雷达采集到的周围环境的图像和点云,以及其他传感器的输出(如行驶速度、GPS定位和行驶方向)。驾驶中的环境的奖励根据任务的不同,可以通过到达终点的速度、舒适度和安全性等指标确定。

  增强学习和传统机器学习的最大区别是增强学习是一个闭环学习的系统,增强学习算法选取的行为会直接影响环境,进而影响该算法之后从环境中得到的观测。传统的机器学习把收集训练数据和模型学习作为两个独立的过程。以学习一个人脸分类的模型为例,传统机器学习的方法首先需要我们雇佣标注者标注一批人脸图像的数据,然后我们在这些数据中学习模型,最后我们可以把训练出来的人脸识别模型在现实的应用中进行测试。如果发现测试的结果不理想,那么我们需要分析模型中存在的问题,并且试着从数据收集或者模型训练中寻找问题的原因,然后从这些步骤中解决这些问题。对于同样的问题,增强学习采用的方法是通过在人脸识别的系统中尝试进行预测,并且通过用户反馈的满意程度调整自己的预测,从而统一收集训练数据和模型学习的过程。增强学习和环境交互过程的框图如下。

             图片描述

  增强学习存在着很多传统机器学习不具备的挑战。首先,因为在增强学习中没有确定的在每一个时刻应该采取哪个行为的信息,所以增强学习算法必须通过探索各种可能的行为才能判断出最优的行为。如何在可能行为数量较多的情况下有效地进行探索是增强学习中最重要的问题之一。其次,在增强学习中一个行为不仅可能影响到当前时刻的奖励,而且还可能影响到之后所有时刻的奖励。在最坏的情况下,一个好行为不会在当前时刻获得奖励,而会在很多步都执行正确后才能得到奖励。在这种情况下,增强学习判断出奖励和很多步之前的行为有关是非常难的。

  无人驾驶的人工智能包含了感知、决策和控制三个方面。感知指的是如何通过摄像头和其他传感器的输入解析出周围环境的信息,例如有哪些障碍物、障碍物的速度和距离、道路的宽度和曲率等。而感知模块不可能做到完全可靠。Tesla的无人驾驶事故就是在强光的环境中感知模块失效导致的。增强学习可以做到,即使在某些模块失效的情况下也能做出稳妥的行为。增强学习可以比较容易地学习到一系列的行为。无人驾驶中需要执行一系列正确的行为才能成功的驾驶。如果只有标注数据,学习到的模型每个时刻偏移了一点,到最后可能会偏移非常多,产生毁灭性的后果。增强学习能够学会自动修正偏移。

无人驾驶决策与增强学习

  无人驾驶的决策是指给定感知模块解析出的环境信息如何控制汽车的行为达到驾驶的目标。例如,汽车加速、减速、左转、右转、换道、超车都是决策模块的输出。决策模块不仅需要考虑到汽车的安全性和舒适性,保证尽快到达目标地点,还需要在旁边的车辆恶意的情况下保证乘客的安全。因此,决策模块一方面需要对行车的计划进行长期规划,另一方面需要对周围车辆和行人的行为进行预测。而且,无人驾驶中的决策模块对安全性和可靠性有严格的要求。现有的无人驾驶的决策模块一般是根据规则构建的。虽然基于规则的构建可以应付大部分的驾驶情况,对于驾驶中可能出现的各种各样的突发情况,基于规则的决策系统不可能枚举到所有突发情况。我们需要一种自适应的系统来应对驾驶环境中出现的各种突发情况。

  基于规则的决策系统大部分可以用有限状态机表示。例如,无人驾驶的高层行为可以分为向左换道、向右换道、跟随和紧急停车。决策系统根据目标可以决定执行高层行为。根据需要执行的高层行为,决策系统可以用相应的规则生成底层行为。基于规则的决策系统的主要缺点是缺乏灵活性。对于所有的突发情况,基于规则的决策系统都需要写一个决策。这种方式很难对所有的突发系统面面俱到。

1 . 无人驾驶模拟器

  无人驾驶的决策过程中,模拟器起着非常重要的作用。决策模拟器负责对环境中常见的场景进行模拟,例如车道情况、路面情况、障碍物分布和行为、天气等。同时还可以将真实场景中采集到的数据进行回放。决策模拟器的接口和真车的接口保持一致,这样可以保证在真车上使用的决策算法可以直接在模拟器上运行。

  无人驾驶模拟器的第一个重要的功能是验证功能。在迭代决策算法的过程中,我们需要比较容易地衡量算法的性能。例如,我们需要确保新的决策算法能够在常见的场景中正确安全地运行。我们还需要对新的决策算法在常见场景的安全性、快捷性、舒适性进行打分。我们不可能每次更新算法时都在实际的场景中进行测试,这时有一个能可靠反映真实场景的无人驾驶模拟器是非常重要的。

  模拟器的另一个重要功能是进行增强学习。通过在模拟器里模拟出各种突发情况,增强学习算法可以利用其在这些突发情况中获得的奖励学习如何应对这些突发情况。这样,我们只要能够模拟出足够的突发情况,我们的增强学习算法就可以学习到对应的突发情况的处理方法,而不用每种突发情况都单独写规则处理。而且,我们的模拟器也可以根据之前增强学习对于突发情况的处理结果,尽量产生出当前的增强学习算法无法解决的突发情况,从而增强学习的效率。

  综上所述,无人驾驶模拟器对决策模块的验证和学习都有着至关重要的作用,是无人驾驶领域的核心技术。如何创建出能够模拟出真实场景、覆盖大部分突发情况,并且和真实的汽车接口兼容的模拟器是无人驾驶研发的难点之一。

2 . 增强学习在无人驾驶中的应用和展望

  增强学习在无人驾驶中有很高的前景。我们在TORCS模拟器中使用增强学习进行了探索性的工作。TORCS是一个赛车的模拟器。玩家在这个模拟器中的任务是超过其他的AI车,以最快的速度达到终点。虽然TORCS中的任务和真实的无人驾驶的任务还有很大的区别,但是由于其中算法的评估非常容易进行,TORCS现在常用于研究无人驾驶中的增强学习算法。增强学习算法一般可以以前方和后方看到的图像作为输入,也可以以环境的状态作为输入(例如自己的速度、离赛道边缘的距离和跟其他车的距离)。
                图片描述

  我们这里使用了环境的状态作为输入,使用Deep Q-Learning作为学习算法学习。(关注微信:bvbooks,回复“DQL”获取“增强学习算法”资讯)环境的奖励定义为在单位时刻车辆沿跑道的前进距离。另外,如果车出了跑道或者和其他车辆相撞,会得到额外的惩罚。环境的状态包括了车辆的速度、加速度、离跑道的左右边缘的距离、和跑道的切线的夹角、在各个方向上最近的车的距离等。车的行为包括向上换挡、向下换挡、加速、减速、向左打方向盘、向右打方向盘等。

  与普通的Deep Q-Learning相比,我们做了以下改进。首先,我们使用了多步的TD算法进行更新。多步的TD算法能够比单步的算法每次学习时看到更多的执行步数,因此也能够更快地收敛。其次,我们使用了Actor-Critic的架构。Actor-Critic将算法的策略函数和值函数分别用两个网络表示,这样的表示有两个优点。

(1)策略函数可以使用监督学习的方式进行初始化学习。

(2)在环境比较复杂时,学习值函数非常困难。把策略函数和值函数分开学习可以降低策略函数学习的难度。

  使用了改进后的Deep Q-Learning算法,我们学习到的策略在TORCS中可以实现沿跑道行走、换道、超车等行为。基本达到TORCS环境中的基本驾驶的需要。Google DeepMind直接使用图像作为输入,也获得了很好的效果,但是训练的过程要慢很多。

  现有的增强学习算法在无人驾驶的模拟环境中获得了很有希望的结果,但是可以看到,如果需要增强学习真正能够在无人驾驶的场景下应用,增强学习算法还需要有很多改进。

  第一个改进方向是增强学习的自适应能力。现有的增强学习算法在环境的性质发生改变时,需要试错很多次才能学习到正确的行为。而人在环境发生改变的情况下,只需要很少的试错就可以学习到正确的行为。如何只用非常少量的样本学习到正确的行为是增强学习能够实用的重要条件。

  第二个重要的改进方向是模型的可解释性。现在的增强学习中的策略函数和值函数都是由深度神经网络表示的。深度神经网络的可解释性比较差。由于可解释性差,在实际使用中出了问题很难找到问题的原因,也比较难排查。在无人驾驶这种人命关天的任务中,无法找到问题的原因是完全无法接受的。

  第三个重要的改进方向是推理和想象的能力。很多时候,人在学习的过程中不需要有一定的推理和想象的能力。例如,在驾驶时,人们不用自己真正尝试,也知道危险的行为会带来毁灭性的后果,这是因为人类对这个世界有一个足够好的模型来推理和想象出相应行文可能会发生的后果。这种能力不仅对增强学习算法在存在危险行为环境中的表现非常重要,在安全的环境中也可以大大加快算法收敛的速度。

  只有在这些方向做出了实质性的突破,增强学习才能真正使用到无人驾驶或者是机器人这种重要的任务场景中。希望更多的有志之士能够投身于增强学习的研究,为人工智能的发展贡献出自己的力量。

  本文选自《第一本无人驾驶技术书》,点此链接可在博文视点官网查看此书。
                      图片描述
  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                         图片描述

0
0
查看评论

增强学习在无人驾驶中的应用

图1 增强学习和环境交互的框图 增强学习存在着很多传统机器学习所不具备的挑战。首先,因为在增强学习中没有确定在每一时刻应该采取哪个行为的信息,增强学习算法必须通过探索各种可能的行为才能判断出最优的行为。如何有效地在可能行为数量较多的情况下有效探索,是增强学习中最重要的问题之一。其次,在...
  • AMDS123
  • AMDS123
  • 2017-04-10 22:39
  • 7385

【增强学习在无人驾驶中的应用】

转自:http://geek.csdn.net/news/detail/114247?ref=myread 欢迎订阅《程序员》! 本文是无人驾驶技术系列的第六篇,着重介绍增强学习在无人驾驶中的应用。增强学习的目的是通过和环境交互,学习如何在相应观测中采取最优行为。相比传统的机器学习,它有...
  • sinat_31135199
  • sinat_31135199
  • 2016-11-09 21:24
  • 2610

TORCS无人驾驶笔记

我们这里使用了环境状态作为输入。使用Deep Q-learning做为学习算法学习。环境奖励定义为在单位时刻车辆沿跑道的前进距离。另外,如果车出了跑道或者和其他的车辆相撞,会得到额外惩罚。环境状态包括车辆的速度、加速度、离跑道的左右边缘的距离,以及跑道的切线夹角,在各个方向上最近的车的距离等等。车的...
  • ritterliu
  • ritterliu
  • 2017-08-11 17:37
  • 588

无人驾驶中的人工智能技术(Drive.Ai)

无人驾驶中的人工智能技术(Drive.Ai)  1 环境感知,这是计算机视觉领域的研究重点, 常说的slam就是指这个,基于激光雷达的slam系统目前已经能较好的进行地图定位,局部环境地图构建  2  标识识别,包括车道识别  交通标志识别(比如红...
  • lijianhua1205
  • lijianhua1205
  • 2017-05-01 08:47
  • 1846

无人驾驶:多种技术的集成

无人驾驶:多种技术的集成 无人驾驶技术是多个技术的集成,如图1所示,一个无人驾驶系统包含了多个传感器,包括长距雷达、激光雷达、短距雷达、摄像头、超声波、GPS、陀螺仪等。每个传感器在运行时都不断产生数据,而且系统对每个传感器产生的数据都有很强的实时处理要求。比如摄像头需要达到60FPS的帧率,...
  • jiakeyouwe
  • jiakeyouwe
  • 2017-02-12 10:57
  • 831

平均年薪50万的无人驾驶工程师,涉及到哪些关键技术

无人驾驶无疑是2017年人工智能领域最热的话题,它涉及了目标感知、定位、自主决策、协同控制等诸多前沿技术。谷歌等互联网巨头、国内外传统汽车企业以及无人驾驶技术为核心的创业公司,纷纷布局。据估计,半自动驾驶和全自动驾驶汽车在未来几十年的市场潜力相当大。例如,到 2035 年,仅中国就将有约 860 万...
  • u013709270
  • u013709270
  • 2018-01-05 00:00
  • 37

神经网络+深度学习+增强学习

神经网络+深度学习+增强学习 神经网络 像飞机的灵感来源于鸟类,雷达的灵感来源于蝙蝠,红外线的灵盖来源于蛇,而本文要讨论的神经网络灵感来源于我们自己,人类大脑的神经元结构。从神经元结构被提出,到时下火热的无以复加的深度神经网络,发展过程也可为一波三折。我们按照时间的顺序,对一些经典的神经网络模型...
  • arag2009
  • arag2009
  • 2017-01-23 14:32
  • 1463

从ADAS到无人驾驶 关键技术有哪些

李彦宏宣布百度将在今年内推出无人驾驶汽车,而特斯拉CEO前不久也放话说“无人驾驶汽车并不是个事儿”,言下之意,无人驾驶时代即将到来。但事实上,无人驾驶目前仍处在梦想的初级阶段,Google的无人驾驶汽车早已上路实测,至今仍没商用,即可见一斑。不过,在实现无人驾驶的梦想前,高级驾驶员辅助系统(ADAS...
  • Real_Myth
  • Real_Myth
  • 2016-05-16 14:07
  • 1197

交通天堂:未来城市如何为人与无人车设计街道? | 探索

本文系网易新闻-智能工作室出品 聚焦AI,读懂下一个大时代! 网易年度AI人物评选——2017网易AI英雄风云榜,自荐提名进行中! 奖项设置:技术创新人物TOP 10,商业创新人物TOP 10 表彰人物:华人科学家、学者、企业家、创业者 评委阵容:资深媒体人、AI投...
  • McIl9G4065Q
  • McIl9G4065Q
  • 2017-11-01 00:00
  • 126

只有Python基础竟成为无人驾驶工程师,她是怎么做到的?

微信公众号 关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 Hi 时代的先驱者! 你知道吗?无论是在硅谷还是在  BAT ,无人驾驶技术的发展都已经势不可挡。在不久的将...
  • Mbx8X9u
  • Mbx8X9u
  • 2017-10-31 00:00
  • 694
    个人资料
    • 访问:3919058次
    • 积分:56457
    • 等级:
    • 排名:第57名
    • 原创:1462篇
    • 转载:83篇
    • 译文:1篇
    • 评论:3786条
    博客专栏
    文章存档
    最新评论