在最近10年,游戏行业开始被AI领域的研究专家所关注,主要的原因是游戏中涉及各类博弈(game-thoery), 逻辑思考和概率,比如围棋(GO)。这里我们想探究一下现在在AI研究领域比较活跃的游戏类型非完美信息游戏(Imperfect Info Game), Head-up No-Limit Texas Hold’em, 这个游戏较围棋等其他游戏不同之处在与,在游戏过程中有,玩家只有部分信息(玩家A不知道其他玩家的牌,预先不知后续的共有牌), 理论上在有筹码的情况下,玩家可以持续玩下去, 最后赢的人赢所有筹码 (zero-sum game)。如果有读者对游戏规则感兴趣可以查看这里 [1]。
为了不缺失通用性, 我们将讨论有2-3个玩家情况下,该游戏的计算/搜索空间, 这里统一假设agent是玩家A, 以下的搜索空间表示为,在给定玩家A, 特定的信息下,所有可能发生的牌面组合, 讨论可能发生所有牌面组合的意义在于后续确认在给定特定信息(牌面)下,玩家赢的概率, 牌共有(13 * 4=52张)
轮数 | 玩家个数 | 搜索空间计算逻辑 | 搜索空间大小 |
First | 2 | C250 | 1225 |
Second | 2 | C250∗C348 | 21187600 |
Third | 2 | C250 |