oracle 去摸_Suphx论文翻译(一)

本文介绍了Suphx,一个使用深度学习和强化学习技术的麻将AI系统,它在天凤麻将平台上超越了大多数顶尖人类玩家。Suphx通过全局奖励预测、Oracle指导和策略适应等方法解决了麻将游戏的复杂性和不完美信息问题。
摘要由CSDN通过智能技术生成

因为对Suphx的机制十分感兴趣 所以抛砖引玉地试图翻译一下

还请各位大佬指教

苏菲:使用深度学习和强化学习掌控日本麻将

摘要

人工智能(artificial Intelligence,AI)在许多领域都取得了巨大的成功,自人工智能诞生以来,游戏AI被广泛认为是它的滩头阵地。近年来,对游戏人工智能的研究逐渐从相对简单的环境(如围棋、象棋、将旗等完美信息游戏或两人不完美信息游戏,如德州扑克)发展到更复杂的环境(如多人不完美信息游戏,如多人的德州扑克和星际争霸2)。麻将是一种流行的多人不完全信息游戏,因为日本麻将拥有复杂的玩法和积分规则以及大量的隐藏信息,所以在AI的训练上非常有挑战性。我们在深度强化学习的基础上,结合全局奖励预测、oracle指导和热策略调整等新技术,设计了一个麻将AI:Suphx。Suphx在安定段位上表现出了比大多数顶尖的人类玩家更强的表现,在天凤平台的所有正式排名的人类玩家中,Suphx的排名在99.99%以上。这是第一次一个AI在麻将方面胜过大多数顶尖的人类玩家。

第一部分 介绍

为游戏开发超级AI是人工智能(AI)的长期目标。游戏人工智能在过去20年里取得了巨大的进步(2,3,11,13,15,16,18)。最近的研究逐渐从相对简单的完美信息或两人游戏(如将旗、国际象棋、围棋和德州扑克)发展到更复杂的不完美信息多人游戏(如桥牌(12)、Dota(1)、星际争霸II(21)和多人德州扑克(4))。日麻是一种信息不完全、玩家众多的多轮游戏,在全球数亿玩家中非常受欢迎。在日麻游戏的每一轮中,四个玩家相互竞争,以胡牌决胜。建立一个强大的日麻AI对当前的游戏人工智能研究是一个巨大的挑战。

首先,日麻拥有完整的积分规则。每一局日麻拥

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值