德州阿尔法计算机技术有限公司,AlphaGo作者又一力作,攻克德州扑克

论文介绍了一种深度强化学习方法NFSP,能够在无需任何前提知识的情况下逼近不完美信息博弈的纳什均衡。在德州扑克游戏中,NFSP展现出与人类专家和顶尖方法相当的竞争力,而传统的强化学习方法则偏离纳什均衡。NFSP通过神经网络自我博弈学习,解决了无先验知识学习、不依赖本地搜索和无差别逼近纳什均衡的三个问题。
摘要由CSDN通过智能技术生成

摘要

现实世界里的许多程序都可以被看成是一种不完美信息博弈的大型游戏。在应对这些充满挑战的领域时,以前的工作都集中于如何在人工抽象域中计算纳什均衡(Nash equilibria)。本论文介绍了第一个可普及的方法,从而在无需任何前提知识的情况下就可以近似纳什均衡。我们的方法结合了虚拟自我博弈与深度强化学习。当应用到扑克游戏的时候,神经网络虚拟自我博弈(NFSP)达到了纳什均衡,但是通常的强化学习方法却偏离了纳什均衡。在一个真实世界的扑克游戏——德州扑克中,NFSP学会了一种竞争性的战略,表现出接近人类专家和最顶尖方法的水平。

引言

本论文中,我们将介绍一种在不完美信息博弈中学会如何接近纳什均衡的深度强化学习方法NFSP。NFSP智能体通过与自己对局进行学习,无需明确的前提知识。从技术上看,NFSP是虚拟自我对局(FSP)利用神经网络的函数逼近来实现的延伸和实例化(海因里希等人,2015年)。一个NFSP智能体由2个神经网络和2种存储器组成。智能体之间的对局记忆经验用于增强学习,以训练出能预测行动预期值的网络。智能体自己的行为经验被存储在一个单独的存储器中,用于监督学习,以训练预测智能体平均行为的网络。NFSP智能体从它的中值、常规策略,与较大限度地提高预测期望值的贪婪策略等混合行为中进行取样,从而慎重地行动。NFSP接近虚拟游戏,是一种流行的学习博弈模型,包括可以收敛到纳什均衡的博弈,例如两名玩家的零和博弈,以及多名玩家的潜在博弈。

我们利用两名玩家的零和计算机扑克游戏实验来评估我们的方法。在这个领域,目前博弈论的方法是利用牌力探索的方法,将游戏抽象到一个容易处理的规模 (Zinkevich等,2007; Gilpin等, 2007; Johanson等,2013)。

有限德州扑克(LHE)则是利用现有的计算资源便可得以

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值