DouZero+:通过对手建模和教练引导学习改进斗地主AI

步子哥

于 2024-06-28 23:00:00 发布

阅读量1.1k

点赞数 14

分类专栏： AGI通用人工智能文章标签：人工智能学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140051274

版权

AGI通用人工智能专栏收录该内容

1486 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

作者:赵友鹏、赵健、胡训涵、周文罡、李厚强

摘要:
近年来,深度强化学习在各种完全信息和不完全信息游戏中取得了重大突破。在这些游戏中,斗地主作为中国流行的纸牌游戏,由于其不完全信息、庞大的状态空间、合作元素以及每回合大量可能的行动,非常具有挑战性。最近,一个名为DouZero的斗地主AI系统被提出。DouZero使用传统的蒙特卡洛方法结合深度神经网络和自我对弈程序进行训练,无需抽象人类先验知识,已经超越了所有现有的斗地主AI程序。在本工作中,我们提出通过引入对手建模来增强DouZero。此外,我们提出了一种新颖的教练网络,以进一步提升DouZero的性能并加快其训练过程。通过将上述两种技术整合到DouZero中,我们的斗地主AI系统实现了更好的性能,在Botzone排行榜上在400多个AI代理(包括DouZero)中排名第一。

索引词:斗地主、强化学习、蒙特卡洛方法、对手建模、教练网络

I. 引言

在人工智能的发展过程中,游戏经常作为一个重要的测试平台,因为它们是许多现实世界问题的良好抽象,而且相比专门为测试AI而设计的环境更加客观,因为游戏是为人类开发的。近年来,在解决完全信息游戏方面取得了重大进展,如围棋、将棋(日本象棋)甚至格斗游戏。目前的研究努力正转向更具挑战性的不完全信息游戏(IIG),在这些游戏中,代理可能在部分可观察的环境下相互合作或竞争。从简单的Leduc扑克和限注/无限注德州扑克等双人游戏,到多人德州扑克、星际争霸、DOTA和日本麻将等多人游戏,都取得了令人鼓舞的成就。

在这项工作中,我们致力于设计一个斗地主AI程序,也称为"斗地主",这是中国最受欢迎的纸牌游戏,每天活跃玩家数以亿计。斗地主有两个有趣的特点,给AI程序带来了巨大挑战。首先,这个

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

步子哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。