摘要
现实世界里的许多程序都可以被看成是一种不完美信息博弈的大型游戏。在应对这些充满挑战的领域时,以前的工作都集中于如何在人工抽象域中计算纳什均衡(Nash equilibria)。本论文介绍了第一个可普及的方法,从而在无需任何前提知识的情况下就可以近似纳什均衡。我们的方法结合了虚拟自我博弈与深度强化学习。当应用到扑克游戏的时候,神经网络虚拟自我博弈(NFSP)达到了纳什均衡,但是通常的强化学习方法却偏离了纳什均衡。在一个真实世界的扑克游戏——德州扑克中,NFSP学会了一种竞争性的战略,表现出接近人类专家和最顶尖方法的水平。
引言
本论文中,我们将介绍一种在不完美信息博弈中学会如何接近纳什均衡的深度强化学习方法NFSP。NFSP智能体通过与自己对局进行学习,无需明确的前提知识。从技术上看,NFSP是虚拟自我对局(FSP)利用神经网络的函数逼近来实现的延伸和实例化(海因里希等人,2015年)。一个NFSP智能体由2个神经网络和2种存储器组成。智能体之间的对局记忆经验用于增强学习,以训练出能预测行动预期值的网络。智能体自己的行为经验被存储在一个单独的存储器中,用于监督学习,以训练预测智能体平均行为的网络。NFSP智能体从它的中值、常规策略,与较大限度地提高预测期望值的贪婪策略等混合行为中进行取样,从而慎重地行动。NFSP接近虚拟游戏,是一种流行的学习博弈模型,包括可以收敛到纳什均衡的博弈,例如两名玩家的零和博弈,以及多名玩家的潜在博弈。
我们利用两名玩家的零和计算机扑克游戏实验来评估我们的方法。在这个领域,目前博弈论的方法是利用牌力探索的方法,将游戏抽象到一个容易处理的规模 (Zinkevich等,2007; Gilpin等, 2007; Johanson等,2013)。
有限德州扑克(LHE)则是利用现有的计算资源便可得以