【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games
博弈论基础
Abstract
现实中很多实际问题都可以理解为是一个大规模非完美信息博弈(游戏)。为了解决这样的问题,之前的工作基本都集中在用手工设计的领域抽象(or 先验知识)去计算纳什均衡(i.e.非完美博弈的最优解)。在这篇文章里,我们第一个提出一种scalable的端到端的方法:在没有先验知识的情况下,直接学习近似的纳什均衡。我们的方法将虚拟自我博弈(Fictitious Self-Play, FSP)与深度强化学习(DRL)结合起来。当应用到冷扑(Leduc poker)时,神经虚拟自我博弈(Neural Fictitious Self-Play,NFSP)达到了纳什均衡,而普通的强化学习方法不行。在现实世界游戏德州扑克中,NFSP取得了最领先的成绩,超越了人类。
Introduction
很多机器学习算法在完美信息博弈中取得了近乎最优解,但这些方法却无法在非完美信息博弈中收敛。另一方面,很多博弈论中搜寻纳什均衡的方法缺乏学习抽象模式的能力,很难泛化到新的情景中。本文的motivation来自于端到端地学习有用的策略。
虚拟博弈(Fictitious play, FP)是在规范式博弈(单步博弈)中学习纳什均衡的常用方法。虚拟玩家们选择最优反应(都以最大化自身利益为原则而做出的动作)。FSP将单步博弈拓展到多步博弈(extensive-form game,扩展式博弈)。
N