继人工智能攻陷围棋,德州扑克也沦陷了

相对于围棋,德州扑克的非完美信息给了人工智能更大的压力。

继AlphaGo披着“Master”在中韩围棋界大获全胜后,德州扑克也不幸沦陷,只不过这次的主角并不是AlphaGo。

继人工智能攻陷围棋,德州扑克也沦陷了

近日,来自加拿大Alberta大学、捷克Charles大学、布拉格捷克理工大学的10位研究员在arXiv网站(一个收集物理学、数学、计算机科学与生物学论文预印本的网站)上传了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,介绍了一种能在一对一无限注德州扑克中击败人类玩家的新算法“DeepStack”。

在围棋等棋类游戏中,玩家能够获得的确定性信息是对称的,而德州扑克不同,这是一种包含了欺骗、推测的非完美信息游戏。在德州扑克的游戏中,玩家只能掌握自己手上的牌,通过推理非对称的信息,从而与对手进行博弈。而这里就是该论文的意义所在,论文中提到“DeepStack是一种通用算法,可用于一大类非完整信息的序列博弈 ”。

不同于过去研究人员所采用的一种压缩型的策略,这个加拿大和捷克的合作团队在开发新算法“DeepStack”过程中更注重培养人工智能出牌时的“直觉”。在运用深度学习,反复自我博弈之后,“DeepStack”学会了在每一个具体情境出现时进行推理,这种做法非常接近于人类玩家的习惯。

去年年末,该团队邀请了33名专业扑克选手与“DeepStack”进行了44852次博弈。在最后的结果中,DeepStack成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了492mbb/g(milli-big-blinds per game,用于衡量扑克玩家表现的指数,一般职业玩家认为50mbb/g是个门槛,750mbb/g就是对手每局都弃牌的赢率)。


原文发布时间: 2017-01-11 10:55
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值