DouZero+:通过对手建模和教练引导学习改进斗地主AI

作者:赵友鹏、赵健、胡训涵、周文罡、李厚强

摘要:
近年来,深度强化学习在各种完全信息和不完全信息游戏中取得了重大突破。在这些游戏中,斗地主作为中国流行的纸牌游戏,由于其不完全信息、庞大的状态空间、合作元素以及每回合大量可能的行动,非常具有挑战性。最近,一个名为DouZero的斗地主AI系统被提出。DouZero使用传统的蒙特卡洛方法结合深度神经网络和自我对弈程序进行训练,无需抽象人类先验知识,已经超越了所有现有的斗地主AI程序。在本工作中,我们提出通过引入对手建模来增强DouZero。此外,我们提出了一种新颖的教练网络,以进一步提升DouZero的性能并加快其训练过程。通过将上述两种技术整合到DouZero中,我们的斗地主AI系统实现了更好的性能,在Botzone排行榜上在400多个AI代理(包括DouZero)中排名第一。

索引词:斗地主、强化学习、蒙特卡洛方法、对手建模、教练网络

I. 引言

在人工智能的发展过程中,游戏经常作为一个重要的测试平台,因为它们是许多现实世界问题的良好抽象,而且相比专门为测试AI而设计的环境更加客观,因为游戏是为人类开发的。近年来,在解决完全信息游戏方面取得了重大进展,如围棋、将棋(日本象棋)甚至格斗游戏。目前的研究努力正转向更具挑战性的不完全信息游戏(IIG),在这些游戏中,代理可能在部分可观察的环境下相互合作或竞争。从简单的Leduc扑克和限注/无限注德州扑克等双人游戏,到多人德州扑克、星际争霸、DOTA和日本麻将等多人游戏,都取得了令人鼓舞的成就。

在这项工作中,我们致力于设计一个斗地主AI程序,也称为"斗地主",这是中国最受欢迎的纸牌游戏,每天活跃玩家数以亿计。斗地主有两个有趣的特点,给AI程序带来了巨大挑战。首先,这个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值