arXiv2019年11月11日上载微软员工的论文“Multi-Agent Connected Autonomous Driving using Deep Reinforcement Learning“ 。
摘要:学习和适应驾驶环境变化的能力对于开发在地理围栏(geofenced)以外的自动驾驶系统至关重要。深度强化学习(RL)提供了一个有前途且可扩展的框架,用于开发基于自适应学习的解决方案。深度RL方法通常将问题建模为(部分可观察)马尔可夫决策过程,在此过程中代理在固定环境中学习最佳行为策略。但是,在高度不稳定的环境中,驾驶涉及多个智能(人工或人为)代理之间的复杂交互。本文建议使用部分可观察马尔可夫博弈(Partially Observable Markov Games,POSG)用现实的假设来表达相关的自动驾驶问题。基于任务的性质、代理的性质和环境的性质其提供了一种多智体学习环境的分类法,帮助分类各种自动驾驶问题,并在提出的框架下解决。主要贡献是提供了MACAD-Gym,一个多智体连接的自动驾驶代理学习平台(Multi-Agent Connected, Autonomous Driving agent learning platform),便于进一步研究。MACAD-Gym平台提供了一组可扩展的互联自动驾驶(CAD,Connected Autonomous Driving)仿真环境,能够研究和开发基于深度RL集成的感测、感知、规划和控制的算法,用于在现实多代理环境下具有无限制操作设计领域的互联自动驾驶(CAD)系统。文中还分享了在MACAD-Gym平台通过原始(摄像头)传感器数据成功地训练MACAD-Agent学习多代理的控制策略。注:代码在 https://github.com/praveen-palanisamy/macad-gym 可下载。
如图是MACAD一个环境的浏览:它是一个用MACAD-Gym创建的异构多智体学习环境。 左图显示了该方案的概述。 中间图显示模拟的场景,右图显示每个代理各自观察的视图。
在单智体学习设置中,主要智体与环境之间的交互被建模为马尔可夫决策过程(MDP,Markov Decision Process)的一部分。 不论其性质(合作/竞争)、类型(与主智体相同/不同)以及与主智体交互的来源如何,都应将其视为环境的一部分,并视其为环境的一部分。 不考虑环境中其他智体的存在,会违反基本学习框架的固定假设和马尔可夫假设。 特别地,当存在能够学习和适应其策略的其他智体时,环境变得不稳定。
一种扩展MDP使其在多个状态配置考虑多个代理的方法是马尔可夫博弈(Markov Games),它在强化学习环境中重新定义博弈论随机博弈(game- theoretic stochastic games)公式。 在多个现实多智体问题领域(例如自动驾驶),假设每个智体都可以观察环境的完整状态而没有不确定存在是不现实的,部分原因是因为车辆(行动者)所具有的感知能力和 代理的实施方式。 部分可观察随机游戏(POSG,Partially Observable Stochastic Games )将随机游戏扩展到部分可观察问题。
在不做不切实际假设的情况下,尽管自动驾驶问题的POSG公式能够解决问题,但除了简化特殊的结构和假设以外,如两人零和(zero-sum)游戏POSG,它无法通过计算容易的方法来解决问题。
在互联自动驾驶(CAD)领域中代理(和/或环境)之间通信(无论是通过显式通信语义还是隐式增强通信)的可能,提供了局部信息(或私有置信)的共享/交易,其信息包括其他代理局部观察状态的某个(或全部)子集,这样即使问题的规模(例如代理数目)增加,在计算上解决方案也是可行的。这样的信息共享/交易会引起诚信、信任和其他因素的问题。
对不同代理之间的交互及其交互的性质,可以用通信渠道显式地建模。在没有明确交互渠道的情况下,代理学习合作或竞争的动机取决于奖励函数。特殊情况下,在部分可观察环境中起作用的所有代理共享奖励函数,这个可以在DEC-POMDP 公式研究。但是,代理的奖励函数并非对所有互联自动驾驶问题完全一致(或完全相反)。
互联自动驾驶领域带来了一些问题,归类为感测、感知、规划或控制。 学习算法可以是集成/端到端的方式或孤立的方式来解决每个驾驶任务,例如路口驾驶和换道驾驶。
任务性质可以分成独立的、协同的和竞争的。
代理/行动者的类型分为同质的(Homogeneous)、异质的(Heterogeneous)、通信的和非通信的。
环境的类型可以是以下几种:同步/异步、部分/全部可观测和对抗。
如图是CAD集中式和非集中式的学习架构图比较:
左图是描绘了集中式学习者的解偶行动者-学习者(actor-learner)体系结构,用于学习全局最优驾驶策略。
右图是非集中式学习者体系结构,其中每个驾驶代理都遵循自己的策略,而该策略独立于另一个代理的驾驶策略。 注意,这种情况可以扩展到包括一定比例人员驾驶的车辆,其具有自己意图和策略。
如图是实验的场景:代理car1(红色面包车),代理car2(蓝色面包车)和代理car3(栗色轿车)学习一种合理的良好驾驶策略,可以完全穿越交叉路口而不会发生碰撞,并且不受环境的限制。
下图是学习的均值奖励函数曲线:
该文发表在 NeurIPS 2019的Autonomous Driving Workshop自动驾驶研讨会,工作应该算车路协同方面。有兴趣的,可以试试其代码。