综述—多智能体系统深度强化学习:挑战、解决方案和应用的回顾

摘要

强化学习算法已经存在了几十年,并被用于解决各种顺序决策问题。然而,这些算法在处理高维环境时却面临着巨大的挑战。深度学习的最新发展使RL方法能够为复杂和有能力的智能体驱动最佳策略,这可以在这些具有挑战性的环境中有效地执行。本文讨论了深度RL的一个重要方面,它涉及到需要多个智能体进行通信和合作以解决复杂任务的情况。研究了多智能体深度RL(MADRL)相关问题的不同方法,包括非平稳性、部分可观察性、连续状态和动作空间、多智能体训练方案和多智能体转移学习。分析了这些方法的优缺点,并探讨了其相应的应用。它被设想,这篇综述提供了关于各种MADRL方法的见解,并可以导致未来发展更鲁棒和更有用的多智能体学习方法来解决真实世界的问题。

索引术语-连续动作空间,深度学习,深度强化学习(RL),多智能体,非平稳,部分可观测性,回顾,机器人

介绍

强化学习是由一个试验和错误(TE)程序,由桑代克进行的实验猫的行为在1898年[1]。 在1954年,明斯基[2]设计了第一个称为随机神经模拟强化计算器(SNARCs)的神经计算机,它模拟大鼠的大脑来解决迷宫谜题。 SNARCs注意到TE学习上升到一个计算周期。 近20年后,Klopf[3]将心理学中的时间差异(TD)学习机制整合到TE学习的计算模型中。

这种集成成功地使TE学习成为一种可行的大型系统学习方法。 在1989年,Watkins和Dayan[4]提出了最优控制理论[5]包括Bellman方程和马尔可夫决策过程(MDP)和TD学习,形成了一个著名的Q学习。 从那时起,Q学习被应用于解决各种现实世界的问题,但它无法解决高维问题,其中计算的数量随着输入的数量急剧增加。 这个问题,被称为维数的诅咒,超过了传统计算机的计算约束。 2015年,Mnih等人。 [6]通过将深度学习与强化学习(R L)相结合,部分克服了维度的诅咒,取得了重要的突破。 自那时以来,深度RL引起了研究界的极大关注。 在图中给出了RL发展的里程碑。 它将TE方法扩展到深RL。

RL起源于心理学中的动物学习,因此它可以模仿人类的学习能力来选择在与环境的相互作用中最大限度地获得长期利润的行为。 该RL已广泛应用于机器人和自主系统,例如Mahadevan和Connell[7]设计了一个可以推动立方体的机器人(1992年);Schaal[8]创造了一个人形机器人,可以有效地解决极点平衡任务(1997年);Ben和Franklin[9]制造了一个双足机器人,可以在不了解环境的情况下学会走路(1997年);Riedmiller等人。 [10]建立了一支足球机器人团队(2009年);Mulling等人。 [11]训练了一个机器人打乒乓球(2013年)。

现代RL的真正标志是深度RL在2015年的成功,当姆尼赫等人。[6]利用了一个名为深度q网络(DQN)的结构,创建了一个在49款经典雅达利游戏[12]中优于专业玩家的代理。2016年,谷歌的深度思维创建了一个自学的阿尔法Go项目,可以击败最好的职业球员,包括中国的洁和韩国的李鞍[13]。深度RL也被用于解决穆Jo公司的物理问题[14]和三维迷宫游戏[15]。2017年,开放人工智能宣布了一款机器人,可以击败在线游戏《斗狗2》中最好的职业玩家,这应该比Go游戏更复杂。更重要的是,深度RL由于其实际方法,如非线性系统的最优控制[16]、行人调节[17]或交通网格信号控制[16],已成为解决现实问题的一种很有前途的方法。谷歌、特斯拉和优步等企业公司一直在参与制造自动驾驶汽车的竞争。此外,最近的RL的进展已被扩展到解决NP-hard问题,如车辆路径问题,这是物流[19]的关键[20]。

在这里插入图片描述

随着现实世界的问题变得越来越复杂,在许多情况下,一个深度RL智能体无法处理。在这种情况下,多智能体系统的应用是必不可少的。在MAS中,智能体必须进行竞争或合作,以获得最好的整体结果。这类系统的例子包括多人在线游戏、生产工厂中的合作机器人、远程控制系统以及无人机、监视和航天器等自主军事系统。在深度RL在文献中的许多应用中,在MAS中使用深度RL有大量的研究,此后是多智能体深度RL(MADRL)。从单个智能体域扩展到多智能体环境会带来一些挑战。 以前的调查考虑了不同的观点,例如Busoniu等人。 [21]研究了制剂的稳定性和适应性方面,Bloombergen等人。 [22]分析了进化动力学,Hernandez-Leal等人。 [23]考虑了紧急行为、沟通与合作学习的观点,以及daSilva等人。 [24]回顾了多智能体RL(MARL)中知识重用自主性的方法)。 本文概述了多智能体学习中的技术挑战以及深入的RL方法来应对这些挑战。 我们涵盖了许多MADRL视角,包括非平稳性、部分可观测性、多智能体训练方案、MAS中的迁移学习以及多智能体学习中的连续状态和动作空间。 本文还对MADRL在各个领域的应用进行了综述和分析。 在最后一节中,我们介绍了MADRL的广泛讨论和有趣的未来研究方向。

背景:强化学习

前提

RL是一个TE学习1)通过与环境直接交互;2)随着时间的推移进行自我教学;3)最终实现指定的目标。 具体来说,RL将任何决策者(学习者)定义为智能体,将智能体之外的任何东西定义为环境。 智能体与环境之间的相互作用通过三个基本要素来描述:1)状态s;2)动作a;3)奖励r[25]。 环境在时间步骤t处的状态表示为 s t s_t st。因此,智能体检验了 s t s_t st并在处执行相应的操作 a t a_t at。然后,环境将其状态 s t s_t st更改为 s t + 1 s_{t+1} st+1,并向智能体提供反馈奖励 r t + 1 r_{t+1} rt+1

智能体的决策是通过定义政策的概念来正式化的。策略π是从任何感知状态到从该状态获取的操作的映射函数。如果从所有状态s的 s : p ( a ∣ s ) = 1 s:p(a|s)=1 spas=1中选择一个动作a的概率,则该策略是确定性的。相反,如果存在一个状态s,因此 p ( a ∣ s ) < 1 p(a|s)<1 pas<1,则该策略是随机的。在任何一种情况下,我们都可以将策略π定义为从特定状态中选择的候选动作的概率分布。
在这里插入图片描述
其中, Δ π \Delta π Δπ表示策略π的所有候选操作(操作空间)。为了清楚起见,我们假设动作空间是离散的,因为连续的情况可以直接通过使用积分符号来推断出。此外,我们假设下一个状态 s t + 1 s_{t+1} st+1和反馈奖励 r t + 1 r_{t+1} rt+1完全由当前的状态-动作对 ( s t , a t ) (s_t,a_t) (stat)决定,而不管历史记录如何。任何RL问题都满足这个“无记忆”条件,这都被称为MDP。因此,通过给出所有的转移概率 p ( a i ∣ s ) p(a_i|s) p(ais),就完全指定了一个RL问题的动力学(模型)。

贝尔曼方程

提醒智能体每次步骤 t t t收到反馈奖励 r t + 1 r_{t+1} rt+1,直到到达终端状态 s T s_T sT。 然而,即时奖励 r t + 1 r_{t+1} rt+1并不代表长期利润,而是在时间步骤 t t t处利用广义回报值 r t r_t rt
在这里插入图片描述

其中γ是一个折现因子,使得0≤γ<1。 当γ接近1时,智能体变得有远见,反之亦然,当γ接近0时,智能体变得短视。

下一步是定义一个值函数,用于评估某一状态或特定状态-动作对的“良好”程度。具体地说,策略π下的状态的值函数是通过从 s : V π ( s ) = E [ R t ∣ s t = s , π ] s:V_π(s)=\mathbb{E}[R_t|s_t = s, \pi] sVπ(s)=E[Rtst=s,π]获得期望返回值来计算的值函数。同样地,状态-动作对的值函数是 Q π ( s , a ) = [ R t ∣ s t = s , a t = a , π ] Q_π(s,a)=[R_t|s_t=s,a_t=a,π] Qπ(sa)=[Rtst=sat=aπ]。我们可以利用值函数使用以下规则[25]比较π和π’两个策略之间的“良好”:
在这里插入图片描述
基于(2),我们可以扩展 V π V_π Vπ Q π ( s , a ) Q_π(s,a) Qπ(sa),以[25]表示两个连续状态 s = s t s=s_t s=st s ′ = s t + 1 s'=s_{t+1} s=st+1之间的关系
在这里插入图片描述

在这里插入图片描述
其中 W s → s ′ ∣ a = E [ r t + 1 ∣ s t = s , a t = a , s t + 1 = s ′ ] \mathbb{W}_{s\to s'|a} =\mathbb{E}[r_{t+1}|s_t = s, a_t = a , s_{t+1} = s'] Wssa=E[rt+1st=s,at=a,st+1=s]。解(4)或(5),可以分别求出值函数 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(sa)。 方程(4)和(5)称为贝尔曼方程。

动态规划及其变体[26]-[31]可以用于近似贝尔曼方程的解。然而,它需要问题的完整的动力学信息,因此,当状态数较大时,由于传统计算机缺乏内存和计算能力,这种方法是不可行的。在下一节中,我们将回顾两种无模型的RL方法[不需要关于转换概率 p ( a i ∣ s ) p(a_i|s) p(ais)的知识]来近似值函数。

RL方法

在这一部分中,我们回顾了RL中两种著名的学习方案:1)Monte-Carlo(MC)和2)TD学习。 这些方法不需要环境的动态信息,也就是说,它们可以处理比动态编程方法更大的状态空间问题。

1)蒙特卡罗方法:该方法通过反复生成事件并记录每个状态或每个状态-动作对的平均回报来估计值函数。 该MC方法不需要任何过渡概率知识,即MC方法是无模型的。 然而,这种方法做出了两个基本假设来确保收敛的发生:1)事件的数量很大;2)每个状态和每个动作都必须经过大量的访问。

通常,MC算法分为两组:1)上策略和2)非策略。 在策略方法中,我们使用策略π进行评估和探索。 因此,策略π必须是随机的或软的。 相反,非策略使用不同的策略 π ′ ≠ π π'\neq π π=π来生成事件,因此π可以是确定性的。 虽然offpolicy由于其简单性而是可取的,但当处理连续的状态空间问题时,以及当与函数逼近器(如神经网络)一起使用时[32]策略方法更稳定。

2)时间差分法:与MC相似,TD方法也是从经验中学习的(无模型方法)。然而,与MC不同的是,TD的学习不会等到这一集结束后才会进行更新。它利用贝尔曼方程(4)对事件中的每一步进行更新,因此可能提供更快的收敛。方程式(6)给出了一种一步制的TD方法

在这里插入图片描述

其中α是步长参数,0<α<1。 TD学习使用以前的估计值 V i − 1 V^{i−1} Vi1来更新当前值 V i V^i Vi,这被称为引导方法。 基本上,在大多数情况下,引导方法比非引导方法学习得更快[25]。 TD学习也分为两类:1)对策略TD控制(Sarsa)和2)非策略TD控制(Q-学习)。
在这里插入图片描述
在实践中,MC和TD学习通常使用表记忆结构(表法)来保存每个状态或每个状态-动作对的值函数。这使得它们效率低下,因为在解决复杂问题时缺乏内存。因此,我们设计了一个actor-critic的结构来压制这一限制。具体来说,AC包括智能体的两个独立存储结构:1)actor 和 2)critic。actor 结构用于根据观察状态选择合适的动作,并转移到 critic 结构进行评价。critic 结构使用TD错误函数来决定所选动作的未来趋势。 根据实现细节,AC方法可以是on-policy,也可以是off-policy。 表一总结了RL方法的特点及其优缺点。 表二突出了动态规划和RL方法之间的差异,其中包括MC、Sarsa、Q学习和AC。 相对于动态规划,RL算法是无模型[33]。 而其他RL方法,如Sarsa、Q学习和AC使用引导方法,MC需要重新启动集来更新其值函数。 值得注意的是,基于AC的算法是最通用的,因为它们可以属于任何类别。

深度强化学习:单智能体

深度Q网络

深度学习是一个宽泛的术语,表示深度学习和学习相结合来处理高维环境[34]–[36]。2015年,Mnih等人[6]首次通过创建一个能够胜任49个雅达利系列游戏的自主智能体,宣布了这一组合的成功。简明地说,作者提出了一种叫做DQN的新结构,它利用卷积神经网络(CNN) [37]直接解释来自环境的输入状态s的图形表示。DQN的输出产生了所有可能动作的Q值。因此,DQN可以看作是一个由β参数化的策略网络τ,它被不断地训练以逼近最优策略。在数学上,DQN使用贝尔曼方程来最小化损失函数,如下所示

在这里插入图片描述
然而,使用神经网络来逼近值函数被证明是不稳定的,并且可能由于来自相关样本的偏差而导致发散[32]。为了使样本不相关,Mnih等人[6]创建了一个目标网络 τ ′ \tau ' τ,用β’参数化,从估计网络τ开始每N步更新一次。此外,生成的样本存储在体验重放存储器中。然后从经验回放中随机检索样本,并输入训练过程[39],如图2所示。
在这里插入图片描述
虽然DQN基本上解决了一个具有挑战性的问题,即维数灾难,但这只是解决完全真实世界应用的初级步骤。DQN有许多缺点,可以通过不同的方案来弥补,从简单的形式到复杂的修改,我们将在下一节讨论。

DQN变体

DQN变型的第一种也是最简单的形式是在[40]和[41]中提出的双DQN (DDQN)。DDQN的思想是将“贪婪”行动的选择与行动评估分开。这样,DDQN期望减少训练过程中对Q值的高估。换句话说,(7)中的max算子被解耦成两个不同的算子,由下面的损失函数表示:
在这里插入图片描述
在57款雅达利游戏上的实验结果表明,在不调谐的情况下,DDQN的归一化性能比DQN大两倍,比DQN大三倍。

第二,DQN的经验回放在打破样本之间的相关性方面发挥了重要作用,同时提醒“稀有”样本,策略网络可能会很快忘记。然而,从经验回放中随机选择样本的事实并没有完全分离样本数据。具体来说,我们更喜欢罕见的和目标相关的样本比冗余样本出现得更频繁。因此,Schaul等人[42]提出了一种优先化的经验重放,它根据样本 i i i的时域误差绝对值赋予样本优先权

在这里插入图片描述
当与DDQN结合时,优先体验重放提供了策略网络的稳定收敛,并且在57场雅达利游戏的标准化平均分数方面实现了比DQN高五倍的性能。

DQN的策略评估过程很难在“多余”的情况下进行,也就是说,有两个以上的候选行动可以选择而不会得到任何负面结果。例如,当开车时,前方没有障碍物,我们可以沿着左车道或右车道行驶。如果左边车道前方有障碍物,我们必须在右边车道,以免撞车。因此,如果我们只关注前面的道路和障碍,效率会更高。为了解决这种情况,王等人[43]提出了一种新的网络体系结构,称为决斗网络。在决斗体系结构中,有两个并行的网络共存:一个网络,由 θ θ θ参数化,估计状态值函数 V ( s ∣ θ ) V(s|θ) V(sθ),另一个网络,由 θ θ θ参数化,估计优势作用函数 A ( s , a ∣ θ ′ ) A(s,a|θ') A(saθ).然后,使用以下等式将两个网络聚合,以近似Q值函数:
在这里插入图片描述
因为决斗网络代表了行动价值功能,它与DDQN和优先体验重放相结合,在雅达利领域将性能提升到标准DQN的六倍以上[43]。

DQN的另一个缺点是,它使用四个帧的历史记录作为策略网络的输入。因此,DQN在解决当前状态依赖于大量历史信息的问题时效率低下,例如“Double Dunk”或“Frostbite”[44]。这些博弈通常被称为部分可观测的MDP问题。简单的解决方案是在策略网络的最后一个卷积层之后,用周期性的长短期内存来替换完全连接的层,如[44]中所述。在“双扣篮”和“冻伤”游戏中,这种被称为深度递归Q网络的DQN变种的性能超过标准DQN高达700%。此外,兰普尔和查波特[45]通过在DRQN中添加游戏特征层,成功地创建了一个在“末日”(3D FPS(第一人称射击游戏)环境中击败普通玩家的智能体。DRQN的另一个有趣的变体是深度注意递归Q网络(DARQN) [46]。在那篇文章中,索洛金等人在DRQN中添加了注意力机制,使网络只能专注于游戏中的重要区域,从而允许较小的网络参数,从而加快训练过程。结果,DARQN获得了7263分,而在游戏“Seaquest”中,DQN和DRQN分别获得了1284分和1421分。

深度强化学习:多智能体

MASs 引起了极大的关注,因为它们能够通过个智能体的合作来解决复杂的任务。在多智能体系统中,智能体相互通信并与环境交互。在多智能体学习领域,MDP被推广到随机博弈,或马尔可夫博弈。让我们把n表示为智能体的数量,S表示为一组离散的环境状态, A i , i = 1 , 2 , . . . , n A_i,i = 1,2,...,n Aii=12...n,作为每个智能体的一组操作。所有智能体的联合动作集由 A = A 1 × A 2 × . . . × A n A = A_1×A_2× ... × A_n A=A1×A2×...×An定义。状态转移概率函数用 p : S × A × S → [ 0 , 1 ] p : S × A × S → [0,1] p:S×A×S[01]表示,奖励函数指定为 r : S × A × S → R n r : S × A × S → \mathbb{R}^n r:S×A×SRn。每个智能体的价值函数依赖于联合行动和联合策略,其特征为 V π : S × A → R n V^π: S×A → \mathbb{R}^n Vπ:S×ARn。以下部分描述了挑战和MADRL解决方案,以及它们在解决现实问题中的应用。

挑战与解决方案

1)非平稳性:与单个智能体相比,控制多个智能体带来了几个额外的挑战,例如智能体的异构性、如何定义合适的集体目标或需要设计紧凑表示的大量智能体的可扩展性,以及更重要的非平稳性问题。在单智能体环境中,智能体只关心自己行为的结果。在多智能体域中,智能体不仅观察自己行为的结果,还观察其他智能体的行为。智能体之间的学习是复杂的,因为所有智能体都可能相互交互并同时学习。多个主体之间的相互作用不断重塑环境,导致非平稳性。在这种情况下,智能体之间的学习有时会导致一个智能体的策略发生变化,并会影响其他智能体的最优策略。一个行动的潜在回报的估计是不准确的,因此,在多主体环境中给定点的好策略在未来不可能保持这样。在单智能体环境中应用的Q学习收敛理论不能保证适用于大多数多智能体问题,因为马尔可夫特性在非平稳环境中不再成立[47]。因此,信息的收集和处理必须以一定的重复性进行,同时确保不影响试剂的稳定性。在多主体环境下,exploration–exploitation 困境可能会更加复杂。

流行的独立问答学习[48]或基于经验回放的DQN [6]不是为非平稳环境设计的。卡斯塔涅达[49]提出了DQN的两个变种,即深度重复更新Q网络(DRUQN)和深度松散耦合Q网络(DLCQN),以处理多智能体系统中的非平稳性问题。DRUQN是基于在[50]和[51]中介绍的重复更新Q学习(RUQL)模型开发的。它旨在通过更新与选择行动的可能性成反比的行动值来避免政策偏差。另一方面,DLCQN依赖于[52]中提出的松散耦合的Q学习,它使用每个代理的负面奖励和观察来指定和调整每个代理的独立性程度。通过这种独立性程度,代理学会决定在不同情况下是需要独立行动还是与其他代理合作。同样,迪亚洛等人[53]将DQN扩展到多智能体并发DQN,并证明了这种方法可以在非平稳环境中收敛。福尔斯特等人[54]交替介绍了两种方法来稳定DQN在马德尔的经验重播。第一种方法使用重要性抽样方法来自然衰减过时的数据,而第二种方法使用指纹来消除从重放存储器中检索的样本的年龄的歧义。

最近,为了处理由于多智能体系统中多个智能体的并发学习引起的非平稳性,帕尔默等人[55]提出了一种方法,即宽松DQN (LDQN),该方法利用衰减温度值的宽松度来调整从经验重放存储器中采样的策略更新。多主体环境中的宽容描述了这样一种情况,即学习智能体忽略了合作学习者的不良行为,这导致了低回报,但仍然与合作学习者合作,希望合作学习者能够在未来改进自己的行为。比如智能体A和智能体B在学踢足球。由于失误或训练不足,智能体B无法处理智能体A传给他的球。在这种情况下,在宽大处理的情况下,智能体A会认为智能体B可以提高自己的技能,从而智能体A继续将球传给智能体B,而不是认为智能体B没有踢足球的技能,不会再将球传给智能体B[56]。LDQN应用于协调多智能体对象运输问题,并将其性能与hystereticDQN (HDQN) [57]进行了比较。实验结果表明,在随机报酬环境下,LDQN相对HDQN在收敛到最优策略方面具有优势。在[58]中,宽大处理的概念以及预定的重放策略也被结合到加权的决策支持网络中,以处理多智能体系统中的非平稳性。实验表明,在两个具有随机回报和大状态空间的多智能体环境中,WDDQN比DDQN具有更好的性能。

2)部分可观测性:在现实世界的应用中,有很多情况下,agents对环境只有部分可观测性。这个问题在多智能体问题中更为严重,因为它们通常更复杂、规模更大。换句话说,当智能体与环境交互时,智能体 不知道与环境有关的状态的完整信息。在这种情况下,智能体会观察关于环境的部分信息,并需要在每个时间步骤中做出“最佳”决策。这种类型的问题可以用部分可观测的MDP模型来模拟。

在当前的文献中,已经提出了许多深度RL模型来处理POMDP。Hausknecht和Stone [44]提出了基于长短期记忆网络的DRQN。通过递归结构,基于DRQN的智能体能够在部分可观察的环境中以健壮的方式学习改进的策略。与DQN不同,DRQN通过递归神经网络逼近Q(o,a),Q(o,a)是一个带有观测值o和动作a的Q函数。DRQN将网络ht1的隐藏状态视为内部状态。因此,DRQN的特征是Q函数(ot,ht1,a;θi ),其中θI是在第ith训练步骤中的网络参数。在[59]中,DRQN被扩展到深度分布式递归Q网络(DDRQN)来处理多代理POMDP问题。DDRQN的成功依赖于三个显著的特征,即最后动作输入、智能体间重量共享和禁用体验回放。第一个特征,即最后动作输入,要求提供每个智能体的前一个动作作为其下一步的输入。智能体间权重共享意味着所有智能体仅使用一个网络的权重,这是在训练过程中学习的。禁用体验重放只是排除了DQN的体验重放功能。因此,DDRQN学习形式为Q(om t,hm t 1,m,am t 1,am t;θi),其中每个智能体接收其自己的索引m作为输入。权重分担减少了学习时间,因为它减少了要学习的参数数量。虽然每个智能体都有不同的观察和隐藏状态,但是这种方法假设智能体具有相同的一组动作。为了解决复杂的问题,自治智能体通常有不同的操作集。例如,无人机在空中机动,而机器人在地面操作。因此,无人机和机器人的动作空间是不同的,因此不能应用智能体间的重量分担功能。

扩展到部分可观察域中的许多代理的系统是一个具有挑战性的问题。古普塔等人[60]将课程学习技术扩展到MAS,该技术集成了三类深度学习方法,包括策略梯度、TD错误和AC方法。课程原则是先开始学习完成简单的任务,积累知识,再着手执行复杂的任务。这适用于多智能体环境,在该环境中,在扩展以容纳更多智能体来完成越来越困难的任务之前,最初协作的智能体较少。实验结果表明,该课程学习方法在将深度学习算法扩展到复杂多智能体问题方面具有活力。

洪等[61]引入深度策略推理Q-网络(DPIQN)对MASs进行建模,并引入其增强型深度递归策略推理Q-网络(DRPIQN)处理部分可观测性。DPIQN和DRPIQN都是通过在训练过程的不同阶段使网络的注意力适应策略特征和它们自己的Q值来学习的。实验表明,DPIQN和DRPIQN的整体性能优于基线DQN和DRQN [44]。同样在部分可观测性的背景下,但扩展到多任务、多主体问题,Omidshafiei等人[57]提出了一种称为多任务MALL(MT-MALL)的方法,该方法集成了滞后学习者[62]、DRQNs [44]、提炼[63]和并发经验重放轨迹(CERTs),它们是[6]中提出的经验重放策略的分散扩展。当智能体协作学习用稀疏的奖励完成一组分散的POMDP任务时,智能体没有被明确地提供任务标识(因此是部分可观察的)。然而,这种方法有一个缺点,即不能在具有异构智能体的环境中执行

除了部分可观测性之外,在某些情况下,智能体必须处理与环境真实状态弱相关的极其嘈杂的观察。基林茨和蒙大纳[64]介绍了一种称为MADDPG-M的方法,该方法结合了深度确定性政策梯度(DDPG)和通信介质来解决这些情况。代理需要决定他们的观察是否有助于与其他智能体共享,并且通信策略是通过经验与主要策略同时学习的。最近,Foerster等人[65]提出了一种贝叶斯动作解码器(BAD)算法,用于学习具有合作部分可观察设置的多个智能体。一个新的概念,即公众信念MDP,被引入到基于贝叶斯估计的贝叶斯估计中,它使用一个近似的贝叶斯更新来获得环境中具有可公开观察特征的公众信念。BAD依赖于分解的近似信念状态来发现约定,以使代理能够有效地学习最优策略。这与人类通常用来解释他人行为的心理理论密切相关。在原理证明两步矩阵博弈和合作部分信息卡牌博弈Hanabi上的实验结果证明了该方法相对于传统策略梯度算法的有效性和优越性。

3) MAS训练方案:单智能体深度RL对多智能体环境的直接扩展是通过将其他智能体视为环境的一部分来独立学习每个智能体,如[66]中提出的独立Q学习算法。这种方法容易过度拟合[67],并且计算成本高,因此涉及的智能体数量有限。另一种流行的方法是集中学习和分散执行,通过开放的通信渠道应用集中方法,可以同时培训一组智能体[68]。分散策略中,每个智能体可以根据其本地观察采取行动,这种策略在部分可观察性和执行期间有限的通信方面具有优势。分散策略的集中学习已经成为多智能体环境中的标准范例,因为学习过程可能发生在模拟器和实验室中,在那里没有通信约束,并且可以获得额外的状态信息[68]。

文献[60]研究了多智能体系统的三种不同训练方案,包括集中学习、并行学习和参数共享。集中式策略试图通过对所有智能体的联合观察来获得联合行动,同时并行学习使用联合奖励信号来训练智能体。在后者中,每个智能体基于私人观察独立地学习自己的策略。或者,参数共享方案允许使用所有智能体的经验来同时训练智能体,尽管每个智能体可以获得唯一的观察。借助执行分散策略的能力,参数共享可用于扩展单智能体深度RL算法,以适应由多个智能体组成的系统。特别地,参数共享和TRPO的结合,即PS-TRPO,已经在[60]中提出,并在算法1中简要总结。PS-TRPO在处理高维观测和部分可观测下的连续作用空间时表现出了很好的性能。

Foerster等人[69]在集中式学习方法的基础上引入了增强的交互智能体学习(RIAL)和可区分的交互智能体学习(DIAL)方法,以改善智能体的学习交流。在RIAL中,深度Q学习有一个递归结构来解决部分可观测性问题,其中独立的Q学习为单个智能体提供学习他们自己的网络参数的机会。DIAL通过一个通道将梯度从一个智能体推送到另一个智能体,允许跨智能体的端到端反向传播。同样,Sukhbaatar等人[70]开发了一个通信神经网络(CommNet),允许动态智能体在执行完全合作任务的策略时学习连续通信。与CommNet不同,何等人[71]提出了一种方法,即深度强化对手网络(DRON),将对手代理的观察编码到中,在没有领域知识的情况下共同学习对手的策略和行为。

在[72]和[73]中,分散和集中的观点都被结合到分层主从体系结构中,形成了一个称为主从MALL(MS-MALL)的模型,以解决MAS中的通信问题。主代理接收并共同处理来自从代理的消息,然后为每个从代理生成唯一的指导性消息。从属代理使用自己的信息和来自主代理的指导性消息来采取行动。与对等体系结构相比,该模型显著降低了多智能体系统内的通信负担,尤其是当系统具有多个代理时。

文献[74]提出了基于AC策略梯度算法的多主体深度确定性策略梯度方法。MADDPG的特点是集中学习和分散执行的范式,在这种范式中,批评家使用额外的信息来简化训练过程,而演员根据他们自己的本地观察采取行动。图3示出了MADDPG的多智能体分散参与者和集中评论组件,其中在执行阶段仅使用参与者。

最近,另一种多智能体交流方法,即反事实多智能体(COMA),也依赖于集中学习和分散执行方案,在[75]中介绍。与MADDPG [74]不同,COMA可以处理多智能体信用分配问题[76],其中智能体很难从合作环境中的联合行动产生的全球回报中计算出他们对团队成功的贡献。然而,COMA有一个缺点,即只关注离散的行动空间,而MADDPG能够有效地学习连续的策略。

4)连续作用空间:大多数深层RL模型只能应用于离散空间[77]。例如,DQN [6]只限于具有离散和低维作用空间的问题,尽管它可以处理高维观察空间。DQN的目标是找到具有最大动作值的动作,因此需要在连续动作(状态)空间中的每一步进行迭代优化。将动作空间离散化是使深度RL方法适应连续域的一种可能的解决方案。然而,这产生了许多问题,特别是维度的诅咒:相对于自由度的数量,动作数量呈指数增长。

舒尔曼等人[78]提出了一种可扩展到连续状态和动作的信赖域策略优化(TRPO)方法,用于优化机器人运动和基于图像的游戏领域的随机控制策略。Lillicrap等人[77]引入了一种非策略算法,即DDPG算法,该算法利用AC体系结构[79],[80]来处理连续动作空间。基于确定性政策梯度(DPG) [81],DDPG使用参数化的行动者函数确定性地将状态映射到特定的行动,同时保持DQN在批判方面的学习。然而,这种方法需要大量的训练来寻找解决方案,这在无模型强化方法中很常见。Heess等人[82]将DDPG推广到递归DPG (RDPG)来处理在部分可观测性下连续作用空间的问题,其中智能体在作出决策时不能获得真实状态。最近,古普塔等人[60]介绍了多智能体学习的PS-TRPO方法(见算法1)。该方法建立在TRPO的基础上,能够有效地处理连续的动作空间。
在这里插入图片描述
5)针对MADRL的转移学习:训练Q-网络或者一般来说,单个智能体的深度RL模型通常计算量很大。这个问题对于由多个智能体组成的系统来说非常严重。为了在多种深度学习模型的训练过程中提高性能和降低计算成本,一些研究促进了深度学习的迁移学习。鲁苏等人[63],[83]提出了一种策略提炼方法和渐进神经网络,以促进深层学习背景下的迁移学习。然而,这些方法计算复杂且昂贵[84]。尹和潘[85]同样引入了另一种策略提炼架构,以将知识转移应用于深度学习。该方法减少了训练时间,优于DQNs,但其探索策略仍然效率不高。Parisotto等人[86]提出了用于多任务和转移学习的演员模拟方法,该方法提高了深度策略网络的学习速度。网络可以同时在许多游戏上获得专家的表现,尽管它的模型并不那么复杂。然而,这种方法要求源任务和目标任务之间有足够的相似性,并且容易受到负迁移的影响。

一个多智能体的环境被重构为一个类似图像的表示,并且在[87]中使用了中枢神经系统来估计每个有问题的智能体的Q值。当迁移学习方法可以用来加速训练过程时,该方法可以解决多智能体系统的可扩展性问题。在不同但相关的环境中训练的策略网络用于其他智能体的学习过程,以减少计算开销。在追踪-规避问题[88]上进行的实验表明了转移学习方法在多主体领域中的有效性。

表三总结了针对不同多主体学习挑战的综述文章。可以看出,在文献中已经提出了DQN的许多扩展,而基于策略或交流的方法还没有在多智能体环境中得到充分的探索。

在这里插入图片描述

MADRL应用

自从DQN在[6]中提出深度学习以来,已经提出了许多算法来将深度学习与多智能体学习相结合。这些算法可以解决各种领域的复杂问题。本节提供了对这些应用程序的调查,重点是深度学习和MARL的集成。表四总结了这些应用方法的特点和局限性。

在这里插入图片描述

在[91]中引入了一个MADRL模型来处理零能源社区中的能源共享问题,该社区由一组零能源建筑组成,这些建筑一年内的总能源使用量小于或等于每栋建筑内的可再生能源发电量。深度RL智能体用于描述每个建筑的特征,以学习与其他建筑共享能量的适当动作。引入社区监控服务来管理组成员活动,例如加入和离开组或维护活动代理列表。实验表明,与随机行为选择策略相比,该模型在净零能量平衡方面具有优势。

在优先考虑代理人隐私的问题中,开发了层次化RL和MADRL方法的组合来协调和控制多个智能体[92]。这种分布式调度问题可能是一个多任务对话,其中自动助理需要帮助用户进行规划。分层反向链路和反向链路方法的结合被开发出来,以协调和控制代理隐私优先的问题中的多个智能体[92]。这种分布式调度问题可能是一个多任务对话,其中自动助理需要帮助用户计划几个独立的任务,例如,购买去城市的火车票、预订电影票和在餐馆预订晚餐。这些任务中的每一个都由一个分散的控制器处理,而助手是一个元控制器,它从时间抽象中受益,以减少通信复杂性,从而能够为用户找到全局一致的解决方案(图4)。另一方面,雷博等人[93]引入了基于部分可观测性下的一般和马尔可夫博弈的序贯社会困境模型,以解决多智能体系统中合作的演化问题。固态硬盘能够捕捉现实世界社会困境的序列结构,是矩阵游戏社会困境(MGSD)的扩展,已应用于社会科学和生物学的各种现象[22],[52],[94]。一般和建模需要求解算法来跟踪每个智能体的不同潜在均衡,或者能够找到由使用不同状态空间扫描学习的多个策略组成的循环策略[95],[96]。DQN被用来描述自我利益的独立学习智能体,以找到固态硬盘的均衡,这是无法解决的标准进化和MGSD使用的学习方法[97]。Pérolat等人[98]还展示了MADRL在社会科学现象中的应用,即公共资源分配。所提出的方法包括空间和时间动态心肺复苏环境[99]和大量独立的自我感兴趣的dqn。CPR拨款问题通过自组织来解决,自组织随着时间的推移调整独立个体智能体感受到的激励。

群系统在[100]中被公式化为分散POMDP [101]的特例,并使用AC深度RL方法来控制一组协作智能体。Q函数是使用全局状态信息来学习的,全局状态信息可以是在群体机器人的例子中捕获场景的相机的视图。尽管单个智能体的感知能力有限,但该组可以执行复杂的任务,如搜索和救援或分布式组装。该模型有一个缺点,因为它假设智能体是同质的。IDQN的使用是在[102]中提出的,以解决城市交通灯控制的多智能体环境中的异构性问题。每个代理都是通过决斗DDQN (DDDQN)学习的,该DDDQN集成了决斗网络、DDQN和优先体验重放。将其他代理视为环境的一部分,独立并同时训练异构智能体。多智能体环境的非平稳性通过指纹技术来处理,该技术消除了训练样本的年龄的歧义并稳定了重放记忆。

在[103]中提出了DQN对状态空间为低维的非均匀多体系统的特殊应用。实验是在一个状态只有13个变量的多智能体远离足球问题上进行的。为了处理异构性,每个DQN智能体都设置有不同的经验重放记忆和神经网络。智能体之间不能交流,只能观察别人的行为。在低维环境下,在异质团队学习环境中,DQNs可以提高游戏分数,但其学习过程明显慢于同质情况下的学习过程。

在学习过程中建立智能体之间的通信通道是设计和构造MADRL算法的重要步骤。Nguyen等人[104]描述了通过图像表示的人类知识的通信通道的特征,并允许深层RL智能体使用这些共享图像进行通信。异步优势AC (A3C)算法[80]用于学习每个智能体的最优策略,可以扩展到多个异构智能体。另一方面,Noureddine等人[105]引入了一种方法,即使用协作深度学习的任务分配过程,以允许多个智能体相互交互并有效地分配资源和任务。在松散耦合的分布式多智能体环境中,代理可以请求其合作邻居的帮助。通信网络模型[70]用于促进智能体之间的通信,其特征在于DRQN [44]。

在[106]中,使用MADRL通过两种算法解决了大规模车队管理问题,即上下文深度问答学习和上下文多智能体交流。这些算法旨在通过重新分配有助于减少交通拥堵和提高运输效率的运输资源来平衡需求和供应之间的差异。图5示出了上下文多智能体交流模型,其中使用参数共享策略网络来协调智能体,智能体代表可用车辆或等效的空闲驾驶员。

最近,在[107]中介绍了一种对多智能体系统的有趣的方法,其中智能体可以用他们的行为来交换其他资源,例如环境奖励。行动交易受到福利经济学基本定理的启发,即竞争性市场向帕累托效率调整。具体来说,智能体需要扩展他们的行动空间,同时学习两种策略:一种是原始随机报酬,另一种是交易环境报酬。从行动交易中实现的行为市场有助于减轻贪婪行为(如[108]中提出的蒂福特博弈论策略),使智能体能够激励其他智能体,并减少个人报酬最大化的负面影响。

结论和研究方向

本文概述了多智能体学习中的不同挑战,以及使用深度学习方法解决这些挑战的方法。我们将调查的文章分为五类,包括非平稳性、部分可观测性、多智能体训练方案、多智能体迁移学习以及连续状态和动作空间。我们强调了应对这些挑战的方法的优缺点。此外,还对MADRL方法在不同领域的应用进行了全面综述。我们发现,将深度学习集成到传统的MARL方法中已经能够解决许多复杂的问题,例如城市交通灯控制、零能量社区中的能量共享问题、大规模车队管理、任务和资源分配、群体机器人和社会科学现象。结果表明,基于深度粗糙集的方法为处理多智能体领域的复杂任务提供了一种可行的方法。

从演示中学习,包括模仿学习和逆RL,在单智能体深度RL中是有效的[109]。一方面,模仿学习作为一种有监督的方法,试图将状态映射到动作。它直接将专家策略推广到未观察到的状态,从而在有限作用集的情况下更接近于多类分类问题。另一方面,反向RL智能体需要从专家演示中推断出奖励函数。逆RL假设专家策略对于未知的奖励函数是最优的[110],[111]。然而,这些方法还没有在多智能体环境中得到充分的探索。模仿学习和逆向学习在多智能体系统中都有很大的应用潜力。期望它们能减少学习时间,提高MAS的有效性。这些应用程序带来了一个非常简单的挑战,那就是需要多名能够协作演示任务的专家。此外,在多智能体领域中,专家的交流和推理能力很难由自主智能体来描述和建模。这就对模仿学习的扩展和反向学习方法提出了重要的研究问题。此外,对于人类难以演示的复杂任务或行为,需要允许将人类偏好整合到深层RL中的替代方法[104],[112],[113]。

深度RL极大地促进了自主性,这允许在机器人或自主车辆中部署许多应用。然而,深度逆向物流模型最常见的缺点是通过人机合作技术与人互动的能力。在复杂和敌对的环境中,迫切需要人类的智力与技术相结合,因为当新的情况出现时,仅靠人类无法维持这一数量,仅靠机器也无法做出创造性的反应。人在回路架构的最新进展[114]可以与MADRL融合,以集成人类和自主代理来处理复杂的问题。在人在回路中,智能体自动执行他们的任务,直到任务完成,而处于监控或监督角色的人保留干预由智能体执行的操作的能力。如果人工监管者允许代理完全独立完成任务,基于人在回路的体系结构可以是完全自主的[114]。

无模型深度学习能够解决单智能体和多智能体领域的许多复杂问题。然而,这类方法需要大量的样本和较长的学习时间来获得良好的性能。基于模型的方法在样本效率、可转移性和使用单智能体和多智能体模型的各种问题的通用性方面是有效的。虽然基于模型的方法的深度学习扩展最近已经在单智能体领域进行了研究,例如[115]–[ 120],但是这些扩展还没有在多智能体领域进行广泛的研究。这就产生了一个研究空白,可以发展为基于模型的MADRL的研究方向。此外,使用基于模型的方法或结合基于模型的规划和无模型策略的元素来处理高维观测是另一个活跃、令人兴奋但尚未探索的研究领域。

扩展到大型系统,尤其是处理许多异构智能体,从一开始就是逆向物流研究领域的主要挑战。随着世界动态变得越来越复杂,这一挑战一直需要解决。由于智能体具有共同的行为,如动作、领域知识和目标(同构代理),可伸缩性可以通过(部分)集中训练和分散执行来实现[121]、[122]。在多智能体的异构环境中,关键的挑战是如何通过智能体之间有效的协调和合作策略,在自主学习的基础上提供最优解,最大化任务完成的成功率。解决这一难题的研究方向很值得研究。

关于多智能体学习的应用,已经有许多研究使用传统的MARL方法来解决各种问题,例如控制一组自主车辆或无人机[123],机器人足球[124],控制交通信号[125],协调工厂和仓库中的协作机器人[126],控制电力网络[127]或优化分布式传感器网络[128],自动化交易[129],竞争性电子商务和金融市场中的机器投标[130],资源管理[131]和运输[132]。自从DQN [6]出现以来,在文献中已经发现了将传统的反向链路扩展到多智能体领域的深度反向链路的努力,但是这些努力仍然非常有限(关于当前文献中可用的应用,参见表4)。MADRL基于其高维处理能力,现在可以有效地解决MARL的许多应用。因此,有必要进行进一步的实证研究,以应用MADRL方法有效地解决复杂的现实世界问题,如上述应用。

参考

[1] E. L. Thorndike, “Animal intelligence: An experimental study of
the associate processes in animals,” Amer . Psychol., vol. 53, no. 10,
pp. 1125–1127, 1898.
[ 2 ] M . L . M i n s k y , Theory of Neural-Analog Reinforcement Systems and Its
Application to the Brain Model Problem, Princeton Univ., Princeton,
NJ, USA, 1954.
[3] A. Klopf, Brain Function and Adaptive Systems: A Heterostatic Theory,
Air Force Cambridge Res., Cambridge, U.K., 1972.
[4] C. J. Watkins and P . Dayan, “Q-learning,” Mach. Learn., v o l . 8 ,
nos. 3–4, pp. 279–292, 1992.
[5] R. Bellman, “On the theory of dynamic programming,” Proc. Nat.
Acad. Sci. USA, vol. 38, no. 8, pp. 716–719, 1952.
[6] V . Mnih et al., “Human-level control through deep reinforcement
learning,” Nature, vol. 518, no. 7540, pp. 529–533, 2015.
[7] S. Mahadevan and J. Connell, “Automatic programming of behavior-
based robots using reinforcement learning,” Artif. Intell., vol. 55,
nos. 2–3, pp. 311–365, 1992.
[8] S. Schaal, “Learning from demonstration,” in Proc. Adv. Neural Inf.
Process. Syst. 1997, pp. 1040–1046.
[9] H. Benbrahim and J. A. Franklin, “Biped dynamic walking using
reinforcement learning,” Robot. Auton. Syst., vol. 22, nos. 3–4,
pp. 283–302, 1997.
[10] M. Riedmiller, T. Gabel, R. Hafner, and S. Lange, “Reinforcement
learning for robot soccer,” Auton. Robots, vol. 27, no. 1, pp. 55–73,
2009.
[11] K. Mulling, J. Kober, O. Kroemer, and J. Peters, “Learning to select
and generalize striking movements in robot table tennis,” Int. J. Robot.
Res., vol. 32, no. 3, pp. 263–279, 2013.
[12] M. G. Bellemare, Y . Naddaf, J. V eness, and M. Bowling, “The arcade
learning environment: An evaluation platform for general agents,” J.
Artif. Intell. Res., vol. 47, pp. 253–279, May 2013.
[13] D. Silver et al., “Mastering the game of go with deep neural networks
and tree search,” Nature, vol. 529, no. 7587, pp. 484–489, 2016.
[14] Y . Duan, X. Chen, R. Houthooft, J. Schulman, and P . Abbeel,
“Benchmarking deep reinforcement learning for continuous control,”
in Proc. Int. Conf. Mach. Learn., Jun. 2016, pp. 1329–1338.
[15] C. Beattie et al., “DeepMind lab,” 2016. [Online]. Available:
arXiv:1612.03801.
[16] B. Luo, D. Liu, and H.-N. Wu, “Adaptive constrained optimal control
design for data-based nonlinear discrete-time systems with critic-only
structure,” IEEE Trans. Neural Netw. Learn. Syst., vol. 29, no. 6,
pp. 2099–2111, Jun. 2017.
[17] Z. Wan, C. Jiang, M. Fahad, Z. Ni, Y . Guo, and H. He, “Robot-
assisted pedestrian regulation based on deep reinforcement learning,”
IEEE Trans. Cybern., vol. 50, no. 4, pp. 1669–1682, Apr. 2020,
doi: 10.1109/TCYB.2018.2878977.
[18] T. Tan, F. Bao, Y . Deng, A. Jin, Q. Dai, and J. Wang, “Cooperative
deep reinforcement learning for large-scale traffic grid signal control,”
IEEE Trans. Cybern., early access, doi: 10.1109/TCYB.2019.2904742.
[19] M. Nazari, A. Oroojlooy, L. V . Snyder, and M. Takác, “Reinforcement
learning for solving the vehicle routing problem,” in Proc. Adv. Neural
Inf. Process. Syst., 2018, pp. 9839–9849.
[20] W. Kool, H. van Hoof, and M. Welling, “Attention, learn to solve
routing problems!” 2018. [Online]. Available: arXiv:1803.08475.
[21] L. Busoniu, R. Babuska, and B. De Schutter, “A comprehensive survey
of multiagent reinforcement learning,” IEEE Trans. Syst., Man, Cybern.
C, Appl. Rev., vol. 38, no. 2, pp. 156–172, Mar. 2008.
[22] D. Bloembergen, K. Tuyls, D. Hennes, and M. Kaisers, “Evolutionary
dynamics of multi-agent learning: A survey,” J. Artif. Intell. Res.,
vol. 53, pp. 659–697, Aug. 2015.
[23] P . Hernandez-Leal, B. Kartal, and M. E. Taylor, “Is multiagent deep
reinforcement learning the answer or the question? A brief survey,”
2018. [Online]. Available: arXiv:1810.05587.
[24] F. L. da Silva, M. E. Taylor, and A. H. R. Costa, “Autonomously
reusing knowledge in multiagent reinforcement learning,” in Proc. 27th
Int. Joint Conf. Artif. Intell., 2018, pp. 5487–5493.
[25] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction.
Cambridge, MA, USA: MIT Press, 1998.
[26] B. Luo, D. Liu, H.-N. Wu, D. Wang, and F. L. Lewis, “Policy gradient
adaptive dynamic programming for data-based optimal control,” IEEE
Trans. Cybern., vol. 47, no. 10, pp. 3341–3354, Oct. 2017.
[27] K. G. V amvoudakis, F. L. Lewis, and G. R. Hudas, “Multi-agent differ-
ential graphical games: Online adaptive learning solution for synchro-
nization with optimality,” Automatica, vol. 48, no. 8, pp. 1598–1611,
2012.
[28] H. Zhang, H. Jiang, C. Luo, and G. Xiao, “Discrete-time nonzero-sum
games for multiplayer using policy-iteration-based adaptive dynamic
programming algorithms,” IEEE Trans. Cybern., vol. 47, no. 10,
pp. 3331–3340, Oct. 2017.
[29] W. Gao, Z. P . Jiang, F. L. Lewis, and Y . Wang, “Cooperative optimal
output regulation of multi-agent systems using adaptive dynamic
programming,” in Proc. Amer . Control Conf. (ACC), May 2017,
pp. 2674–2679.
[30] J. Zhang, H. Zhang, and T. Feng, “Distributed optimal consensus con-
trol for nonlinear multiagent system with unknown dynamic,” IEEE
Trans. Neural Netw. Learn. Syst., vol. 29, no. 8, pp. 3339–3348,
Aug. 2018.
[31] H. Zhang, H. Su, K. Zhang, and Y . Luo, “Event-triggered adap-
tive dynamic programming algorithm for non-zero-sum games of
unknown nonlinear systems via generalized fuzzy hyperbolic models,”
IEEE Trans. Fuzzy Syst., vol. 27, no. 11, pp. 2202–2214, Nov. 2019,
doi: 10.1109/TFUZZ.2019.2896544.
[32] J. N. Tsitsiklis and B. V an Roy, “Analysis of temporal-difference learn-
ing with function approximation,” in Proc. Adv. Neural Inf. Process.
Syst. 1997, pp. 1075–1081.
[33] B. Luo, D. Liu, T. Huang, and D. Wang, “Model-free optimal tracking
control via critic-only Q-learning,” IEEE Trans. Neural Netw. Learn.
Syst., vol. 27, no. 10, pp. 2134–2144, Oct. 2016.
[34] K. Arulkumaran, M. P . Deisenroth, M. Brundage, and A. A. Bharath,
“Deep reinforcement learning: A brief survey,” IEEE Signal Process.
Mag., vol. 34, no. 6, pp. 26–38, Nov. 2017.
[35] Y . Li, “Deep reinforcement learning: An overview,” 2017. [Online].
Available: arXiv:1701.07274.
[36] N. D. Nguyen, T. Nguyen, and S. Nahavandi, “System design per-
spective for human-level agents using deep reinforcement learning: A
survey,” IEEE Access, vol. 5, pp. 27091–27102, 2017.
[37] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification
with deep convolutional neural networks,” in Proc. Adv. Neural Inf.
Process. Syst. 2012, pp. 1097–1105.
[38] T. Nguyen, “A multi-objective deep reinforcement learning frame-
work,” 2018. [Online]. Available: arXiv:1803.02965.
[39] B. Luo, Y . Y ang, and D. Liu, “Adaptive Q-learning for data-
based optimal output regulation with experience replay,” IEEE Trans.
Cybern., vol. 48, no. 12, pp. 3337–3348, Dec. 2018.
[40] H. V . Hasselt, “Double Q-learning,” in Proc. Adv. Neural Inf. Process.
Syst., 2010, pp. 2613–2621.
[41] H. V . Hasselt, A. Guez, and D. Silver, “Deep reinforcement learn-
ing with double Q-learning,” in Proc. 30th AAAI Conf. Artif. Intell.,
Feb. 2016, pp. 2094–2100.
[42] T. Schaul, J. Quan, I. Antonoglou, and D. Silver, “Prioritized experience
replay,” 2015. [Online]. Available: arXiv:1511.05952.
[43] Z. Wang, T. Schaul, M. Hessel, H. Hasselt, M. Lanctot, and
N. D. Freitas, “ Dueling network architectures for deep reinforcement
learning,” in Proc. Int. Conf. Mach. Learn., Jun. 2016, pp. 1995–2003.
[44] M. J. Hausknecht and P . Stone, “Deep recurrent Q-learning for par-
tially observable MDPs,” in Proc. AAAI Fall Symp. Series, Sep. 2015,
pp. 29–37.
[45] G. Lample and D. S. Chaplot, “Playing FPS games with deep rein-
forcement learning,” in Proc. 31st AAAI Conf. Artif. Intell., Feb. 2017,
pp. 2140–2146.
[46] I. Sorokin, A. Seleznev, M. Pavlov, A. Fedorov, and A. Ignateva,
“Deep attention recurrent Q-network,” 2015. [Online]. Available:
arXiv:1512.01693.
[47] P . Hernandez-Leal, M. Kaisers, T. Baarslag, and E. M. de Cote,
“A survey of learning in multiagent environments: Dealing with
non-stationarity,” 2017. [Online]. Available: arXiv:1707.09183.
[48] M. Tan, “Multi-agent reinforcement learning: Independent vs. coopera-
tive agents,” in Proc. 10th Int. Conf. Mach. Learn., 1993, pp. 330–337).
[49] A. O. Castaneda, “Deep reinforcement learning variants of multi-agent
learning algorithms,” M.S. thesis, School Informat., Univ. Edinburgh,
Edinburgh, U.K., 2016.
[50] S. Abdallah and M. Kaisers, “Addressing the policy-bias of Q-learning
by repeating updates,” in Proc. 12th Int. Conf. Auton. Agents Multiagent
Syst., May 2013, pp. 1045–1052.
[51] S. Abdallah and M. Kaisers, “Addressing environment non-stationarity
by repeating Q-learning updates,” J. Mach. Learn. Res., vol. 17, no. 1,
pp. 1582–1612, 2016.

  • 3
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值