来自Google的围棋AlphaGo



alpha_go

围棋起源于三千多年前的中国,孔丘曰:「飽食終日,無所用心,難矣哉!不有博弈者乎,為之猶賢乎已。」意思是:「整天吃飽了飯,什麽都不想,真太難了!不是有下棋(指圍棋)的嗎?下下棋,總比什麽都不做要好。」”。目前,全球共有四千万人在玩围棋。玩围棋的步法主要依靠直觉与构想,因为它精致而又有极高的智力要求,几个世纪以来一直在启发人类的想像力。今天, 我们很高兴的宣布,我们构建的Alpha Go系统通过机器学习掌握了这门古老的技艺。

尽管有着极简的游戏规则,但实际上围棋却是一种极为复杂的游戏。计算起来,围棋共有1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,
000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,
000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,
000,000,000,000种可能的走法——这个数字大于宇宙中原子的数量,比国际象棋还多一个10的100 次方。 出于这种复杂性,计算机很难掌握围棋技艺,也使围棋在人工智能研究者眼中成为吸引力巨大的挑战——这些研究者利用游戏作为试验场,开发巧妙而灵活的算法法,帮助计算机使用类似于人类大脑的思维方式解决问题。

1952年计算机掌握了第一款游戏——井字棋;接下来是1994年的西洋跳棋;1997年,“深蓝”赢得了国际象棋比赛。人工智能并不局限于桌面游戏:2011年,IBM的Watson 在智力游戏Jeopardy中勇夺第一,2014年,我们设计的算法通过原始像素输入就学会了数十种雅达利(Atari)游戏。 但是截止目前,围棋仍然是横亘在人工智能研究者面前的难题:计算机的围棋水平只能达到业余选手的程度。 传统的人工智能方法是将所有可能的走法构建成一棵搜索树 ,但这种方法对围棋并不适用。所以在征服围棋的过程中,我们决定另辟蹊径。我们构建了AlphaGo的系统,将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述,这些处理层包含数百万个类似于神经的连接点。其中一个神经网络“策略网络”(policy network)选择下一步走法,另一个神经网络“价值网络”(value network)预测比赛胜利者。

我们如何做到这一切? 我们用人类围棋高手的三千万步围棋走法训练神经网络,直至神经网络预测人类走法的准确率达到57%。不过我们的目标是击败最优秀的人类棋手,而不止是模仿他们。为了做到这一点,AlphaGo学习自行研究新战略,在它的神经网络之间运行了数千局围棋,利用反复试验调整连接点,这个流程也称为巩固学习(reinforcement learning)。当然,这些都需要大量计算能力,因此我们广泛使用Google云平台,完成了大量研究工作。 完成训练后,我们要对AlphaGo进行测试。首先,我们在AlphaGo和其他顶级计算机围棋程序之间举行了比赛,结果AlphaGo在全部500场比赛中只输了一场。下一步就是邀请欧洲围棋三料冠军Fan Hui来到我们的伦敦办公室参加挑战赛,樊麾是一位优秀专业棋手,自12岁起就全身心投入于围棋事业。在去年十月的闭门比赛中,AlphaGo取得了5:0的胜利,这也是计算机程序首次击败专业围棋选手。 接下来要做什么? 三月,AlphaGo将面临终极挑战:在首尔与传奇棋手李世石展开一场五局鏖战,李世石是过去十年来的世界顶级围棋选手。 我们非常高兴能够征服围棋,克服了人工智能历史上最困难的挑战之一。不过对于我们来说,这项成就最重要的意义在于,AlphaGo不仅是遵循人工规则的“专家”系统,它还通过通用“机器学习”自行掌握如何赢得围棋比赛的规则。游戏是迅速而高效地开发及测试人工智能算法的完美平台,不过最终,我们要运用这些技术解决现实社会的重要问题。我们所采用的方法具有通用性,因此我们希望有一天这些方法也能用来解决当今世界面临的最严峻、最紧迫的问题——从气候建模到复杂的灾难分析,期待着继续运用这些技术解决更多问题!

来自 旷野的召唤

---------------------------------

更多内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值