文章目录
前言
人工智能和算法博弈论的一个长期目标是开发一种通用算法,该算法能够在大型不完美信息两人零和游戏中找到近似纳什均衡。 AlphaStar和OpenAI Five这些自博弈强化学习的变体虽然在大型游戏中效果很好,但它们从博弈论的角度来看没有条理,也不能保证收敛到一个近似的纳什均衡。PSRO可以,但由于其是顺序算法,每次迭代要计算完整的最优反应,很难扩展到大型博弈。
Background and Related Work
π \pi π代表策略对, u i ( π ) u_i(\pi) ui(π)是该策略对对玩家i的收益, σ i ∈ E i = Δ ( Π i ) \sigma_i\in\Epsilon_i=\Delta(\Pi_i) σi∈Ei=Δ(Πi)是混合策略,即一组策略的分布。一组针对 σ i \sigma_i σi的最优反应为了最大化利用,为: B R ( σ i ) = arg min σ − i ′ ∈ E − i u i ( σ − i ′ , σ i ) BR(\sigma_i)=\arg\min_{\sigma'_{-i}\in\Epsilon_{-i}}u_i(\sigma'_{-i},\sigma_i) BR(σi)=argminσ−i′∈E−iui(σ−i′,σi)<