[NIPS2020] Pipeline PSRO A Scalable Approach for Finding Approximate Nash Equilibria in Large Games

本文介绍了P2SRO(Pipeline Policy Space Response Oracles),这是一种并行化的算法,用于在大型不完美信息两人零和游戏中寻找近似纳什均衡。相较于PSRO,P2SRO通过固定策略与动态策略的结合,提高了收敛速度。在随机对称博弈、Leduc Poker和Barrage Stratego等游戏中,P2SRO展现出更快的收敛性能和优秀的表现。
摘要由CSDN通过智能技术生成

前言

人工智能和算法博弈论的一个长期目标是开发一种通用算法,该算法能够在大型不完美信息两人零和游戏中找到近似纳什均衡。 AlphaStar和OpenAI Five这些自博弈强化学习的变体虽然在大型游戏中效果很好,但它们从博弈论的角度来看没有条理,也不能保证收敛到一个近似的纳什均衡。PSRO可以,但由于其是顺序算法,每次迭代要计算完整的最优反应,很难扩展到大型博弈。

Background and Related Work

π \pi π代表策略对, u i ( π ) u_i(\pi) ui(π)是该策略对对玩家i的收益, σ i ∈ E i = Δ ( Π i ) \sigma_i\in\Epsilon_i=\Delta(\Pi_i) σiEi=Δ(Πi)是混合策略,即一组策略的分布。一组针对 σ i \sigma_i σi的最优反应为了最大化利用,为: B R ( σ i ) = arg ⁡ min ⁡ σ − i ′ ∈ E − i u i ( σ − i ′ , σ i ) BR(\sigma_i)=\arg\min_{\sigma'_{-i}\in\Epsilon_{-i}}u_i(\sigma'_{-i},\sigma_i) BR(σi)=argminσiEiui(σi,σi)<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值