多智能体系统深度强化学习:挑战、解决方案和应用的回顾
摘要
强化学习算法已经存在了几十年,并被用于解决各种顺序决策问题。然而,这些算法在处理高维环境时却面临着巨大的挑战。深度学习的最新发展使RL方法能够为复杂和有能力的智能体驱动最佳策略,这可以在这些具有挑战性的环境中有效地执行。本文讨论了深度RL的一个重要方面,它涉及到需要多个智能体进行通信和合作以解决复杂任务的情况。研究了多智能体深度RL(MADRL)相关问题的不同方法,包括非平稳性、部分可观察性、连续状态和动作空间、多智能体训练方案和多智能体转移学习。分析了这些方法的优缺点,并探讨了其相应的应用。它被设想,这篇综述提供了关于各种MADRL方法的见解,并可以导致未来发展更鲁棒和更有用的多智能体学习方法来解决真实世界的问题。
索引术语-连续动作空间,深度学习,深度强化学习(RL),多智能体,非平稳,部分可观测性,回顾,机器人
介绍
强化学习是由一个试验和错误(TE)程序,由桑代克进行的实验猫的行为在1898年[1]。 在1954年,明斯基[2]设计了第一个称为随机神经模拟强化计算器(SNARCs)的神经计算机,它模拟大鼠的大脑来解决迷宫谜题。 SNARCs注意到TE学习上升到一个计算周期。 近20年后,Klopf[3]将心理学中的时间差异(TD)学习机制整合到TE学习的计算模型中。
这种集成成功地使TE学习成为一种可行的大型系统学习方法。 在1989年,Watkins和Dayan[4]提出了最优控制理论[5]包括Bellman方程和马尔可夫决策过程(MDP)和TD学习,形成了一个著名的Q学习。 从那时起,Q学习被应用于解决各种现实世界的问题,但它无法解决高维问题,其中计算的数量随着输入的数量急剧增加。 这个问题,被称为维数的诅咒,超过了传统计算机的计算约束。 2015年,Mnih等人。 [6]通过将深度学习与强化学习(R L)相结合,部分克服了维度的诅咒,取得了重要的突破。 自那时以来,深度RL引起了研究界的极大关注。 在图中给出了RL发展的里程碑。 它将TE方法扩展到深RL。
RL起源于心理学中的动物学习,因此它可以模仿人类的学习能力来选择在与环境的相互作用中最大限度地获得长期利润的行为。 该RL已广泛应用于机器人和自主系统,例如Mahadevan和Connell[7]设计了一个可以推动立方体的机器人(1992年);Schaal[8]创造了一个人形机器人,可以有效地解决极点平衡任务(1997年);Ben和Franklin[9]制造了一个双足机器人,可以在不了解环境的情况下学会走路(1997年);Riedmiller等人。 [10]建立了一支足球机器人团队(2009年);Mulling等人。 [11]训练了一个机器人打乒乓球(2013年)。
现代RL的真正标志是深度RL在2015年的成功,当姆尼赫等人。[6]利用了一个名为深度q网络(DQN)的结构,创建了一个在49款经典雅达利游戏[12]中优于专业玩家的代理。2016年,谷歌的深度思维创建了一个自学的阿尔法Go项目,可以击败最好的职业球员,包括中国的洁和韩国的李鞍[13]。深度RL也被用于解决穆Jo公司的物理问题[14]和三维迷宫游戏[15]。2017年,开放人工智能宣布了一款机器人,可以击败在线游戏《斗狗2》中最好的职业玩家,这应该比Go游戏更复杂。更重要的是,深度RL由于其实际方法,如非线性系统的最优控制[16]、行人调节[17]或交通网格信号控制[16],已成为解决现实问题的一种很有前途的方法。谷歌、特斯拉和优步等企业公司一直在参与制造自动驾驶汽车的竞争。此外,最近的RL的进展已被扩展到解决NP-hard问题,如车辆路径问题,这是物流[19]的关键[20]。
随着现实世界的问题变得越来越复杂,在许多情况下,一个深度RL智能体无法处理。在这种情况下,多智能体系统的应用是必不可少的。在MAS中,智能体必须进行竞争或合作,以获得最好的整体结果。这类系统的例子包括多人在线游戏、生产工厂中的合作机器人、远程控制系统以及无人机、监视和航天器等自主军事系统。在深度RL在文献中的许多应用中,在MAS中使用深度RL有大量的研究,此后是多智能体深度RL(MADRL)。从单个智能体域扩展到多智能体环境会带来一些挑战。 以前的调查考虑了不同的观点,例如Busoniu等人。 [21]研究了制剂的稳定性和适应性方面,Bloombergen等人。 [22]分析了进化动力学,Hernandez-Leal等人。 [23]考虑了紧急行为、沟通与合作学习的观点,以及daSilva等人。 [24]回顾了多智能体RL(MARL)中知识重用自主性的方法)。 本文概述了多智能体学习中的技术挑战以及深入的RL方法来应对这些挑战。 我们涵盖了许多MADRL视角,包括非平稳性、部分可观测性、多智能体训练方案、MAS中的迁移学习以及多智能体学习中的连续状态和动作空间。 本文还对MADRL在各个领域的应用进行了综述和分析。 在最后一节中,我们介绍了MADRL的广泛讨论和有趣的未来研究方向。
背景:强化学习
前提
RL是一个TE学习1)通过与环境直接交互;2)随着时间的推移进行自我教学;3)最终实现指定的目标。 具体来说,RL将任何决策者(学习者)定义为智能体,将智能体之外的任何东西定义为环境。 智能体与环境之间的相互作用通过三个基本要素来描述:1)状态s;2)动作a;3)奖励r[25]。 环境在时间步骤t处的状态表示为 s t s_t st。因此,智能体检验了 s t s_t st并在处执行相应的操作 a t a_t at。然后,环境将其状态 s t s_t st更改为 s t + 1 s_{t+1} st+1,并向智能体提供反馈奖励 r t + 1 r_{t+1} rt+1。
智能体的决策是通过定义政策的概念来正式化的。策略π是从任何感知状态到从该状态获取的操作的映射函数。如果从所有状态s的 s : p ( a ∣ s ) = 1 s:p(a|s)=1 s:p(a∣s)=1中选择一个动作a的概率,则该策略是确定性的。相反,如果存在一个状态s,因此 p ( a ∣ s ) < 1 p(a|s)<1 p(a∣s)<1,则该策略是随机的。在任何一种情况下,我们都可以将策略π定义为从特定状态中选择的候选动作的概率分布。
其中, Δ π \Delta π Δπ表示策略π的所有候选操作(操作空间)。为了清楚起见,我们假设动作空间是离散的,因为连续的情况可以直接通过使用积分符号来推断出。此外,我们假设下一个状态 s t + 1 s_{t+1} st+1和反馈奖励 r t + 1 r_{t+1} rt+1完全由当前的状态-动作对 ( s t , a t ) (s_t,a_t) (st,at)决定,而不管历史记录如何。任何RL问题都满足这个“无记忆”条件,这都被称为MDP。因此,通过给出所有的转移概率 p ( a i ∣ s ) p(a_i|s) p(ai∣s),就完全指定了一个RL问题的动力学(模型)。
贝尔曼方程
提醒智能体每次步骤 t t t收到反馈奖励 r t + 1 r_{t+1} r