多智能体深度强化学习综述笔记

多智能体深度强化学习综述文章–2020



前言

多智能体深度强化学习是机器学习领域的一个新兴研究热点与应用方向,覆盖众多算法、规则、框架、并广泛应用于自动驾驶、能源分配、编队控制、路径规划、社会难题等领域,具有很高的研究价值与意义


一、多智能体强化学习基本理论

1.单智能体强化学习

单智能体强化学习(Single Agent Reinforcement Learning,SARL)中智能体与环境的交互遵循马尔可夫决策过程(Markov Decision Process MDP),MDP由多元组 ( S , A , R , f , γ ) (S,A,R,f,\gamma) (S,A,R,f,γ)表示,求解目标就是找到期望回报值最大的策略 π ∗ \pi^* π,期望回报使用最优的状态动作价值函数表征: Q ∗ = m a x π E [ R t ∣ s t = s , a t = a , π ] Q^*=max_\pi E[R_t|s_t=s,a_t=a,\pi] Q=maxπE[Rtst=s,at=a,π],其遵循贝尔曼最优方程,通过迭代贝尔曼方程的形式求解出Q函数,随着迭代次数的增加,Q函数最终收敛,进而得到最优策略。
Q学习是最经典的RL算法,使用表格储存智能体的Q值,通过 Q ( s , a ) ← Q ( s , a ) + α [ r + γ m a x a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a)\leftarrow Q(s,a)+\alpha[r+\gamma max_a' Q(s',a')-Q(s,a)] Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]更新Q值,不断迭代出最优值

2.基于值函数与基于策略梯度函数

基于值函数(value based)的典型算法就是 Q学习,通过不断迭代更新Q函数的方式求解,而基于策略梯度(policy gradient)的方法使用参数化的策略 θ \theta θ代替Q函数,利用梯度下降的方式逼近求解最优策略,该类方法可用于求解连续动作空间的问题

3.深度强化学习

由于传统的RL学习速率慢、泛化性能差、需要手动对状态特征进行建模、无法应对高维空间等局限性,利用深度神经网络对Q函数与策略进行逼近得到深度强化学习DRL

3.1 基于值函数的方法

DQN算法的主要思想:将深度学习与强化学习结合,使用神经网络对value state进行近似,放弃了以表格的形式记录智能体Q值,采用经验库记录环境探索得到的记忆单元(s,a,r,s’),利用随机小样本更新与训练神经网络参数
同时引入双网络结构,使用Q网络与目标网络进行训练,Q网络随训练过程实时更新,目标网络经过一定次数迭代后复制Q网络的参数,DQN网络的目标函数为最小化Q网络与目标网络之间的state value

3.2 基于策略梯度的方法

基于策略梯度的方法相比于基于值函数的方法能够胜任连续且高维的动作状态空间的优点,代表性算法为深度确定性策略梯度(DDPG),基于AC框架,在输入方面,基于actor网络引入随机噪声产生探索策略,在动作输出方面采用神经网络拟合策略函数,直接输出动作以应对连续动作;参数更新方面,采用缓慢更新参数的方法提升稳定性,还引入批正则化提升了泛化能力

4.多智能体强化学习

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)遵循随机博弈(Stochastic Game,SG)过程
在这里插入图片描述

4.1 MARL算法分类

MARL算法根据回报函数的不同分为完全合作型、完全竞争型和混合型,完全合作型:所有agent的回报函数是相同的,都在为实现共同目标而努力;完全竞争型:环境中通常存在两个完全敌对的智能体,遵循SG原则,R1=-R2,目标是最大化自身回报,同时最小化对方回报;混合型任务:agent的回报函数无确定性关系,适合自利性智能体
在这里插入图片描述

4.2 MARL算法局限性

总的来看,传统MARL 方法有很多优点,如合作型智能体间可以互相配合完成高复杂度的任务;多个智能
体可以通过并行计算提升算法的效率;竞争型智能体间也可以通过博弈互相学习对手的策略,这都是SARL(单智能体强化学习)所不具备的。MARL算法存在的缺陷,包括RL的问题:探索与利用、维度灾难;多智能体环境非稳定、信度分配问题、最优均衡问题、学习目标选择问题等。


二、多智能体深度强化学习以及经典方法

传统MARL存在局限,结合深度神经网络与MRAL的MDRL具有很大的现实意义
通过agent之间的联通方式分为:无关联型、通信规则型、互相协作型和建模学习型

1.无关联型

直接将单智能体DRL算法直接扩展到多智能体环境中,agent之间不存在通信关联
在这里插入图片描述
局限性:由于智能体之间互不通联,每个智能体将其他智能体看作环境的一部分,从个体的角度上看,环境是
处在不断变化中的,这种环境非平稳性严重影响了学习策略的稳定和收敛,另外该类方法的学习效率和速率都
十分低下。

2.通信规则型

基于通讯规则的多智能体算法首先建立显示的通讯机制,并在训练过程中不断完善该通讯机制,训练完成后,每个智能体需要根据其他智能体传递的信息进行决策,多用于完全合作型与非完全观测环境,主要代表的算法强化互学习与差分互学习
在这里插入图片描述
强化互学习与差分互学习:遵循集中训练分散执行的框架,该网络输出不仅包含Q值,也包含智能体之间的交互信息
强化互学习使用双网络结构分别输出动作和离散信息降低动作的维度
差分互学习建立了专门的通信通道实现信息的端到端的双向传递,在通信效率上更具优势
局限性:通信规则型方法优势在于算法在智能体之间建立的显式的信道可以使得智能体学习到更好的集体策略,但其缺点主要是由于信道的建立所需参数较多,算法的设计架构一般较为复杂。

3.互相协作型

此类方法并不直接在多智能体间建立显式的通信规则,而是使用传统MARL中的一些理论使智能体学习到合作型策略
在这里插入图片描述
局限性:不需要建立复杂的通信过程,在训练过程中融入传统的多智能体算法的规则,容易实现且高效,还有一定的通用性,但适应环境较为单一,无法应对完全对抗型环境

4.建模学习型

在此类方法中,智能体主要通过为其他智能体建模的方式分析并预测行为,深度循环对手网络(Deep Recurrent Opponent Network,DRON)是早期比较有代表性的建模学习型算法。它的核心思想是建立两个独立的神经网络,一个用来评估Q 值,另一个用来学习对手智能体的策略,该算法还使用多个专家网络分别表征对手智能体的所有策略以提升学习能力。
在这里插入图片描述
局限性:建模学习型方法:在对手或队友策略不可知的情况下以智能体建模的方法对行为进行预测,具有较强的鲁棒性,但计算和建模的复杂度较高,实际应用较少

5.方法对比

在这里插入图片描述


三、多智能体深度强化学习中的关键问题

1.环境的非平稳性问题

在多智能体环境中,每个智能体不仅考虑自己的动作以及回报,还要综合其他智能体的行为,这种错综复杂的交互和联系过程使得环境不断动态变化。在非平稳环境中,智能体间的动作以及策略会互相影响,使得回报函数的准确性降低,大大增加算法的收敛难度,降低稳定性,打破探索与利用的平衡。
解决办法:研究人员从不同角度对现有方法进行了改进,Castaneda提出了两种基于DQN的改进方法,它们分别通过改变值函数和回报函数的方式增加智能体之间的关联性;Diallo 等人则将并行运算机制引入到DQN中,加速多智能体在非平稳环境中的收敛;Foerster等人则致力于通过改进经验库机制让算法适用于不断变化的非平稳环境,为此他提出了两种方法:(1)为经验库中的数据设置重要性标记,丢弃先前产生而不适应当前环境的数据;(2)使用“指纹”为每个从经验库中取出的样本单元做时间标定,以提升训练数据的质量。

2.非完全观测问题

在大部分多智能体系统中,智能体在交互过程中无法了解环境的完整信息,它们只能根据所能观测到的部分信息做出相对最优决策,这就是部分可观测马尔可夫决策过程(Partially Observable Markov Decison Process)
每个agent并不知道环境的全局状态,只能将自己的部分观测值当作全局状态
解决办法:现有研究中有多种方法用于求解POMDP 问题,如DRQN算法中的循环网络结构保证了智能体在非完全观测环境中高效学习和提升策略,其改进算法深度分布式循环Q 网络(Distributed Deep Recurrent Q -Network,DDRQN)在解决多智能体POMDP 问题中也取得了很好的效果,算法主要有三点创新:(1)在训练过程中将智能体的上一步动作作为下一步的输入,从而加速算法的收敛;(2)在智能体间引入权重分享机制,降低学习参数的数量;(3)放弃经典DRL 算法中的经验库机制以降低环境非平稳性带来的影响。与此同时,也有不少方法致力于解决大规模POMDP 问题。Gupta 提出了一种叫作课程学习(Curriculum Learning,CL)的训练机制,类似于人脑渐进的学习过程,该机制首先让少量智能体合作完成简单的任务,然后逐渐增加智能体数量和任务难度,整个训练过程还支持多种算法的融合。目前该领域的研究侧重于异构智能体POMDP 问题的求解。

3.多智能体环境训练模式问题

早期的MARL算法采用集中式或分散式两种训练方式,前者使用一个单独的训练网络总揽整个学习过程,算法很容易过拟合且计算负荷太大;后者采用多个训练网络,每个智能体之间完全独立,算法由于不存在中心化的目标函数,往往难以收敛。
集中训练和分散执行(Centralized Learning and DecentralizedExecution,CLDE)融合了以上两种模式的特点,智能体一方面在互相通信的基础上获取全局信息进行集中式训练,然后根据各自的部分观测值独立分散执行策略,该模式最大的优点是允许在训练时加入额外的信息(如环境的全局状态、动作或者回报),在执行阶段这些信息又可被忽略,这有利于实时掌控和引导智能体的学习过程。

4.多智能体信度分配问题

在合作型多智能体环境中,智能体的个体回报和全局回报都可以用来表征学习进程,但个体回报一般难以获得,所以大部分实验都使用全局回报计算回报函数。如何将全局回报分配给每个智能体,使其能够精准地反映智能体对整体行为的贡献,这就是信度分配问题。
解决方法:差分回报(Difference Rewards)是一个比较有效的方法,其核心是将每个智能体对整个系统的贡献值进行量化,但这种方法的缺点是很难找到普适的量化标准,另外该方法容易加剧智能体间信度分配的不平衡COMA中优势函数(Advantage Function)思想也是基于智能体的贡献大小进行信度分配,算法通常使用神经网络拟合优势
函数,该方法无论是在分配效果还是效率上都好于一般方法。

5.过拟合问题

过拟合最早出现在监督学习算法中,指的是算法只能在特定数据集中取得很好的效果,而泛化能力很弱。多智能体环境中同样存在过拟合问题,比如在学习过程中其中一个智能体的策略陷入局部最优,学习策略只适用于其他智能体的当前策略和当前环境。
解决方法:目前有3 种比较成熟的解决方法:(1)策略集成(Policy Emsemble)机制,即让智能体综合应对多种策略以提升适应性;(2)极小极大(Minimax)机制,即让智能体学习最坏情况下的策略以增强算法的鲁棒性;(3)消息失活(Message Dropout)机制,即在训练时随机将神经网络中特定节点进行失活处理以提升智能体策略的鲁棒性和泛化能力。


四、前景展望

现有的MDRL算法大部分采用无模型的结构,虽然简化了算法的复杂度,并且适用于复杂问题求解,但该类方法需要海量的样本数据和较长的训练时间为支撑,基于模型的方法则具有数据利用效率高、训练时间短、泛化性强等点,基于模型的强化学习算法在单智能体领域取得了较多进展,其必然是MDRL 未来的重点研究方向;模仿学(Imitation Learning)、逆向强化学习(Inverse Reinforcement Learning)、元学习(Meta Learning)等新兴概念在单智能体领域已经有了不小的成果,解决了不少现实问题,其在多智能体领域的应用前景将相当可观。

五、参考文献

[1]孙彧,曹雷,陈希亮等.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(05):13-24.

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值