目录
引言
为什么poker能成为AI和博弈论领域要挑战的问题?因为人们可以优雅且高效的从poker中捕捉隐藏信息。并且针对多人牌局的AI被认为是下一阶段的重点。
多人博弈理论与实际的挑战
目前AI在游戏领域取得成绩均是基于双人零和博弈(整体的利益不会改变,要么你赢我输,要么我赢你输),AlphaGo就是基于双人零和博弈。在双人零和博弈中,应用那是均衡策略至少可以保证不输,基于双人零和博弈的AI 算法就是去寻找纳什平衡。找到一个基于三人或者更多人零和博弈的纳什平衡是非常困难的(理论上接近纳什平衡也是很困难的)。如果每个玩家单独计算找到纳什平衡,玩家联合起来的策略可能就不是一个纳什平衡。例如下面的Lemonade Stand Game:
在游戏中,每个玩家都要在这个环上找到一点离其他成员尽可能地远。左图表示了四个玩家,每个颜色代表了他们的一个纳什平衡,处于纳什平衡的玩家均匀的分布在环上。右图表示如果他们独立寻找纳什平衡,那么玩家的联合策略可能就不是一个纳什平衡。
所以作者提出,我们的目标不是寻找一个具体的博弈论解决方案,而是创造出一个AI,通过经验不断地击败人类对手包括顶级的专业选手。
Pluribus的描述
Pluribus 策略核心是持续不断地进行自学习自博弈,通过这样的策略训练,AI 系统和自己的镜像进行对抗,而不获取任何人类游戏数据或先前的 AI 游戏数据。Pluribus 利用自学习制定的离线策略为“蓝图策略”,随着真实游戏的进行,Pluribus 通过在比赛中根据自己的实际情况实时搜索更好的策略来改进蓝图策略。
大型不完备信息博弈的抽象化
为了降低游戏的复杂性,作者忽略了一些考虑因素并且将类似的决策点放在一起,这个过程称之为抽象。在抽象之后,划分的决策点被认为是相同决策点。作者在 Pluribus 中使用了动作抽象和信息抽象。
动作抽象
动作抽象主要是减少AI所要考虑的动作即将一些产生影响相似的动作归为一类。例如:在德州扑克中ÿ