作者:赵友鹏、赵健、胡训涵、周文罡、李厚强
摘要:
近年来,深度强化学习在各种完全信息和不完全信息游戏中取得了重大突破。在这些游戏中,斗地主作为中国流行的纸牌游戏,由于其不完全信息、庞大的状态空间、合作元素以及每回合大量可能的行动,非常具有挑战性。最近,一个名为DouZero的斗地主AI系统被提出。DouZero使用传统的蒙特卡洛方法结合深度神经网络和自我对弈程序进行训练,无需抽象人类先验知识,已经超越了所有现有的斗地主AI程序。在本工作中,我们提出通过引入对手建模来增强DouZero。此外,我们提出了一种新颖的教练网络,以进一步提升DouZero的性能并加快其训练过程。通过将上述两种技术整合到DouZero中,我们的斗地主AI系统实现了更好的性能,在Botzone排行榜上在400多个AI代理(包括DouZero)中排名第一。
索引词:斗地主、强化学习、蒙特卡洛方法、对手建模、教练网络
I. 引言
在人工智能的发展过程中,游戏经常作为一个重要的测试平台,因为它们是许多现实世界问题的良好抽象,而且相比专门为测试AI而设计的环境更加客观,因为游戏是为人类开发的。近年来,在解决完全信息游戏方面取得了重大进展,如围棋、将棋(日本象棋)甚至格斗游戏。目前的研究努力正转向更具挑战性的不完全信息游戏(IIG),在这些游戏中,代理可能在部分可观察的环境下相互合作或竞争。从简单的Leduc扑克和限注/无限注德州扑克等双人游戏,到多人德州扑克、星际争霸、DOTA和日本麻将等多人游戏,都取得了令人鼓舞的成就。
在这项工作中,我们致力于设计一个斗地主AI程序,也称为"斗地主",这是中国最受欢迎的纸牌游戏,每天活跃玩家数以亿计。斗地主有两个有趣的特点,给AI程序带来了巨大挑战。首先,这个