[NIPS2017] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning 笔记

本文探讨了多智能体强化学习(MARL)在处理多玩家环境时面临的挑战,如策略过拟合和环境的非稳态性。作者引入了联合策略相关性(JPC)指标来量化这个问题,并提出了一种新的算法,结合深度强化学习(DRL)和经验博弈论分析(EGTA),以近似最优反应策略应对。算法包括神经虚构自我对弈(NFSP)、策略空间响应预言机(PSRO)和深度认知层次结构(DCH)。实验表明,这些方法能有效减轻独立强化学习中的JPC问题,并在Leduc扑克游戏中展现出优于传统方法的表现。
摘要由CSDN通过智能技术生成

前言

为了实现通用智能,agent需要学会在共享的环境中与彼此交互,这就是MARL的挑战。最简单的形式是independent reinforcement learning (InRL),忽略其他agent,将交互当做(局部)环境的一部分,但在训练时往往会过拟合到其他人的策略,导致执行时不能有效泛化,观察越局部越严重。当然还包括局部环境非稳态和非马尔科夫性导致的难以保证收敛。作者引入了一个新的指标——joint-policy correlation(JPC),来量化这个影响。作者描述了一种针对一般MARL的算法——基于DRL产生的策略混合的近似最优反应,和为策略选择计算meta-strategies的经验博弈论分析——以及一种可扩展实现,使用解耦的meta-solvers来降低内存需求。CTDE的结构,主要是有集中的收益表。

https://arxiv.org/abs/1711.00832

Background and Related Work

一般式博弈是一个元组 ( Π , U , n ) (\Pi,U,n) (Π,U,n),其中 n n n是玩家的数量, Π \Pi Π是策略集, U U U是效用的收益表。扩展式博弈将这种形式扩展到多步顺序情况。

玩家通过从 Π i \Pi_i Πi中选择策略,或者根据分布 σ i \sigma_i σi采样策略最大化期望效用。 σ i \sigma_i σi的质量跟策略有关,因此不能被单独找到或评估。每个有限扩展式博弈都有等价的一般式博弈,但是指数级的更大,导致算法不得不直接解决序贯形式的。

有几种计算策略的算法。 在零和博弈中,可以使用例如 线性规划、fictitious play、replicator dynamics或悔恨最小化。其中一些技术已经扩展到扩展(顺序)形式,状态空间的大小呈指数增长。然而,这些扩展几乎只处理两人的情况,但有一些明显的例外。Fictitious play也收敛于包括合作(相同收益)游戏在内的潜在游戏。

double oracle (DO)算法解决一组两人、一般式的子博弈,在时间t由子集 Π t ⊂ Π \Pi_t\subset\Pi ΠtΠ得出。一个子博弈 G t G_t Gt的收益矩阵只包含对应于 Π t \Pi_t Πt中策略的项。在每个时间步 t t t,一个均衡 σ ∗ , t \sigma^{*,t} σ,t从子博弈 G t G_t Gt中得到,并且为了得到 G t + 1 G_{t+1} Gt+1,每个玩家添加一个来自完整空间 Π i \Pi_i Πi的BR π i t + 1 \pi_i^{t+1} πit+1,所以对于所有的玩家 i i i Π i t + 1 = Π i t ∪ { π i t + 1 } \Pi_i^{t+1}=\Pi_i^t\cup\{\pi_i^{t+1}\} Πit+1=Πit{ πit+1}。在零和博弈中,需要 ∣ Π t ∣ |\Pi_t| Πt的多项式时间找到均衡,在一般和博弈中是PPAD-complete的(它们不是判定问题,纳什均衡点的存在性是有纳什定理直接保证的;它们也不是优化问题,因为没有一个优化的目标。从本质上讲,它们是一类不动点的计算问题,所以从传统的NP-Complete角度来研究他们的计算复杂度并不合适。但是否存在第二个均衡的问题是NP-Complete的)。
在这里插入图片描述

很明显,两人博弈中DO保证收到均衡,但是最差情况需要枚举整个策略空间,比如石头剪刀布。然而,有证据表明,许多博弈的支持大小会随着episode长度、隐藏信息揭示的多少和/或对收益的影响而缩小。已经开发了扩展式博弈的扩展,但由于维度灾难,大型状态空间仍然存在问题。

经验博弈论分析 (EGTA) 是对通过复杂博弈中的模拟获得的meta-strategies的研究。一个规模比完整博弈小得多的经验博弈是通过发现策略和对策略进行元推理以导航策略空间来构建的。当明确列举博弈策略的成本高得令人望而却步时,这是必要的。估计每个联合策略的期望效用并将其记录在经验收益表中。分析经验博弈,并继续模拟过程。EGTA 已被用于交易代理竞赛 (TAC) 和自动竞价拍卖。

作者的目标是通过学习发现新的策略,不是计算精确的BR,而是使用强化学习计算近似的BR,这在计算上更可行,fictitious play可以处理近似。考虑到有限理性的自然约束,它在生物学上也更合理。 在行为博弈论中,重点是预测人类采取的行动,并有意限制反应以提高预测能力。

Neural Fictitious Self-Play

许多现实应用可以看做大规模的非完美信息博弈,其是第一个不需要先验领域知识、端到端可扩展地学习近似纳什均衡的方法。虽然许多机器学习方法已经为经典的完美信息博弈实现了近乎最优的解决方案,但这些方法无法在不完美信息博弈中收敛。另一方面,许多用于寻找纳什均衡的博弈论方法缺乏学习抽象模式并使用它们来泛化到新情况的能力。

Neural Fictitious Self-Play (NFSP) 将 FSP 与神经网络函数逼近相结合。NFSP agent由两个神经网络组成。第一个网络是通过off-policy强化学习训练。该网络学习对其他agent的历史行为的近似最佳反应。第二个网络是通过从agent自身行为的记忆经验中进行监督学习来训练的。该网络学习了一个模型,对agent自己的历史策略进行了平均。agent根据其平均策略和最佳反应策略的混合来行动。
在这里插入图片描述
agent独立地同时在环境中行动, M R L M_{RL} MRL中存transitions, M S L M_{SL}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值