多智能体强化学习(六)MARL的综述

多智能体强化学习(六)MARL的综述

在本节中,我提供了对MARL算法的非全面的回顾。首先,我引入了不同的分类,可以应用于以前的分类。鉴于已经存在多个关于MARL方法的高质量、全面的调查,我们对这些调查进行了调查。基于所提出的分类法,我回顾了相关的MARL算法,涵盖了相同兴趣博弈、零和博弈和拥有无限个玩家的博弈。本节被写成有选择性的,重点关注那些有理论保证的算法,而不太关注那些只有经验成功的算法或那些纯粹由特定应用驱动的算法。

1. MARL算法的分类法

单智能体RL算法和MARL算法分类的一个显著区别是,在单智能体设置中,由于问题被一致定义,分类主要由解决方案的类型驱动(凯布林等人,1996;Li,2017),例如,无模型和基于模型、基于策略和非策略的TD学习与蒙特卡洛方法。相比之下,在多智能体设置中,由于存在多个学习目标,分类法主要是由问题的类型而不是解决方案驱动的。事实上,对MARL算法提出正确的问题本身就是一个研究问题,被称为问题问题(Balduzzi等人,2018b;Shoham等人,2007)。

基于阶段博弈的类型。由于解决方案的概念因游戏类型而变化很大,MARL分类的一个主要组成部分是阶段博弈的性质。一个常见的分区包括团队博弈(更一般的是潜在的游戏)、零和博弈(更一般的是谐波游戏)和两种博弈的混合设置,即一般和博弈。其他类型的“奇异”博弈,如潜在博弈(蒙德勒和沙普利,1996)和平均场博弈(拉斯里和狮子,2007),它们源自非博弈理论研究领域,最近引起了极大的关注。根据阶段博弈的类型,分类可以通过博弈的次数进一步丰富。一个重复的博弈是指一个阶段的博弈被反复播放,而不考虑状态过渡。SG是一系列可以无限长的阶段博弈进行,博弈的顺序由状态转换概率决定。由于求解一个一般和SG至少是PSPACEhard(科尼策和桑德霍尔姆,2002),MARL算法通常对它们可以解决的博弈类型有一个明确的边界。对于一般和对策,很少有MARL算法没有强的甚至不可靠的假设(例如,NE是唯一的)(Shoham等人,2007

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值