多智能体强化学习的基础和应用

本文介绍了多智能体强化学习的概念,强调了环境的不稳定性、信息局限性和目标一致性等问题。通过马尔可夫博弈理论,讨论了纳什均衡在多智能体策略中的重要性。文章还探讨了不同类型的智能体关系,如竞争、合作和混合。在深度强化学习方面,提到了基于策略的MADDPG方法和基于值函数的中心化值函数建模,这些方法能处理复杂的多智能体交互问题。
摘要由CSDN通过智能技术生成

多智能体强化学习(multi-agent reinforcement learning, MARL)

1、强化学习和多智能体强化学习

强化学习的核心思想是“试错”(trial-and-error),在RL领域,待解决的问题通常被描述为马尔可夫决策过程。

图1:强化学习的框架吧(同时也表示了马尔可夫决策过程)

当同时有多个智能体与环境交互时,整个系统就变成了一个多智能体系统,此时环境全局状态的改变和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。

1.1多智能体问题的建模——博弈论基础

马尔可夫决策过程拓展到多智能体系统,被定义为马尔可夫博弈(随机博弈)。

图2:马尔可夫博弈过程

在马尔可夫博弈中,所有智能体根据当前的环境状态(或者观测值)来同时选择并执行各自的动作,该各自动作带来的联合动作影响了环境状态到的转移和更新,并决定了智能体获得的奖励与反馈,可通过元组(S,A1,...An,T,R1,...Rn)来表示,其中S表示状态集合,Ai和Ri分别表示智能体i的动作集合和奖励集合,T表示环境状态转移概率,表示损失因子。此时,某个智能体i获得的累计奖励的期望可以表示为:

对于马尔可夫博弈,纳什均衡是一个很重要的概念,它是在多智能体中达成的一个不动点,对于其中任意一个智能体来说,无法通过采取其他的策略来获得更高的累计回报,在数学形式上可以表示为:

 在该式中,Π表示智能体i的纳什均衡策略

纳什均衡不一定是全局最优,但是概率上最容易产生的结果,是在学习时较容易收敛的状态,特别是如果当前智能体无法知道其他智能体将会采取怎样的策略。

相比于单智能体,多智能体系统中遇到的问题你和挑战:

1、环境的不稳定性:环境状态的变化与所有智能体的联合动作有关;

2、智能体获取信息的局限性:不一定能够获得全局的信息,仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;

3、个体的目标一致性:可能是最优的全局回报;也可能是各自局部回报的最优; 

4、可拓展性:在大规模的多智能体系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真是场景中的硬件算力有一定要求。

1.2多智能体问题的求解——多智能体强化学算法介绍

一种直接的思路:将单智能体强化学习方法直接套用在多智能体系统中,即每个智能体把其他智能体都当做环境中的因素,仍然按照单智能体学习的方式、通过与环境的交互来更新策略,这是independent Q-learnning方法的思想。

一般情况下,智能体之间可能存在竞争关系(非合作关系)、半竞争半合作关系(混合式)或完全合作关系。

1.2.1完全竞争关系:

1.2.2半合作半竞争(混合)关系:

1.2.3完全合作关系:

智能体通过协作获得最优回报时,是否需要协作机制:

不需要协作机制:对于一个问题,当所有智能体的联合动作是唯一的时候,完成该任务是不需要协作机制

隐士的协作机制:在智能体之间需要相互协商、从而达成最优的联合动作的问题中,个体之间的相互建模,能够为智能体的决策提供潜在的协调机制

2、多智能体深度强化学习

深度强化学习的方法可以分为基于值函数(value-based)基于策略(policy-based)两种,在考虑多智能体问题时,主要的方式是在值函数的定义或者是策略的定义中引入多智能体的相关因素,并设计相应的网络结构作为值函数模型和策略模型,最终训练得到的模型能够适应(直接或者是潜在地学习到智能体相互之间的复杂关系),在具体任务上获得不错的效果

2.1policy-based的方法

1. 多智能体 DDPG 方法(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)

MADDPG 为每个智能体都建立了一个中心化的 critic,它能够获取全局信息(包括全局状态和所有智能体的动作)并给出对应的值函数 Qi(x,a1,...,an),这在一定程度上能够缓解多智能体系统环境不稳定的问题。另一方面,每个智能体的 actor 则只需要根据局部的观测信息作出决策,这能够实现对多智能体的分布式控制。

2.2 value-based 的方法

在前面提到的 policy-based 方法中,中心化的值函数是直接使用全局信息进行建模,没有考虑个体的特点。在多智能体系统是由大规模的多个个体构成时,这样的值函数是难以学习或者是训练到收敛的,很难推导出理想的策略。并且仅依靠局部观测值,无法判断当前奖励是由于自身的行为还是环境中其他队友的行为而获得的。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值