比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类! PENG Bo

转载 2017年12月07日 00:00:00

?wx_fmt=png&wxfrom=5&wx_lazy=1

Photo by Jason Kempin/Getty Images for Agon Limited


作者 | 禀临科技联合创始人 PENG Bo



读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?

MCTS(蒙特卡洛树搜索)能比得上alpha-beta搜索吗?许多研究者都曾对此表示怀疑。


但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:


  • 4小时就打败了国际象棋的最强程序Stockfish!

  • 2小时就打败了日本将棋的最强程序Elmo!

  • 8小时就打败了与李世石对战的AlphaGo v18!



?wx_fmt=jpeg



在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。



?wx_fmt=jpeg



这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。


然而现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。


在reddit的国象版面的讨论中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess-https://www.reddit.com/r/chess/comments/7hvbaz/mastering_chess_and_shogi_by_selfplay_with_a/),大家纷纷表示AlphaZero已经不是机器的棋了,是神仙棋,优美,富有策略性,弃子灵活坚决,更能深刻地谋划(maneuver),完全是在调戏Stockfish。


国际象棋的基本规则,大家应该都知道,可以看这个Youtube视频的分析:https://www.youtube.com/watch?v=lb3_eRNoH_w 。Stockfish作为传统AI的代表,有人类设计的评估函数,整天想着“怎样怎样可在多少步后吃对方的子”。AlphaZero是“以德服人”,Stockfish贪吃就给Stockfish吃,没关系,AlphaZero有自己的想法:它直接让Stockfish的一堆子连家都出不了。Stockfish只能干瞪眼。AlphaZero想怎么走就怎么走,Stockfish疲于奔命,四处救火。这一切,正如AlphaGo此前在围棋上所显示的惊人控制力。


很有趣的是,和围棋的情况一样,AlphaZero证明了许多人类开局是正确的。不过,AlphaZero不喜欢西西里防御。



?wx_fmt=jpeg



训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。


Stockfish和Elmo,每秒种需要搜索高达几千万个局面。


AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。



?wx_fmt=jpeg



当然,训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。


不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。


个人一直认为MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。


为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。


(在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文,电脑以后自己都可以写出来)


也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......



原文地址:https://zhuanlan.zhihu.com/p/31749249



热文精选


干货 | 如何成为一名推荐系统工程师

干货 | 如何使用 CNN 推理机在 IoT 设备上实现深度学习

干货 | 如何成为一名全栈语音识别工程师?

详解 | 如何用Python实现机器学习算法

经验 | 如何成为一名顶级战斗力的数据分析师?

深度学习高手该怎样炼成?这位拿下阿里天池大赛冠军的中科院博士为你规划了一份专业成长路径

何恺明团队推出Mask^X R-CNN,将实例分割扩展到3000类

AI人才缺失催生的“跨境猎头”,人才年薪高达300万,猎头直赚100万

Twitter大牛写给你的机器学习进阶手册


?wx_fmt=png

比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!| 快讯

本文作者PENG Bo(http://t.cn/RY3MKSS),本文首发于作者的知乎专栏《技术备忘录》, AI研习社获其授权发布。 读过AlphaGo Zero论文的同学,可能都惊讶于它的方法...
  • Y0W1as5eg37urFdS
  • Y0W1as5eg37urFdS
  • 2017年12月07日 00:00
  • 70

比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!

来源:本文作者PENG Bo(http://t.cn/RY3MKSS),本文首发于作者的知乎专栏《技术备忘录》 读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方...
  • cf2SudS8x8F0v
  • cf2SudS8x8F0v
  • 2017年12月07日 00:00
  • 71

AlphaGo Zero横空出世:DeepMind Nature论文

AlphaGo Zero横空出世:DeepMind Nature论文 论文链接: http://www.nature.com/nature/journal/v550/n7676/pdf/natur...
  • wzebinbin
  • wzebinbin
  • 2017年10月20日 21:22
  • 2624

AlphaGo Zero与增强学习

我们知道机器学习分为有监督学习和无监督学习,增强学习介于它们两个之间,它关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。简单地说就是边干边学....
  • xieyan0811
  • xieyan0811
  • 2017年11月08日 19:24
  • 1329

被世人遗忘的AlphaZero:中国象棋界的AlphaGo

这不是Reinforcement Learning(强化学习)的炫技篇,而是匠心独具的情怀篇。“我真的没想到AlphaGo会如此耀眼,早知道这样的话,13年我应该上直播,因为那是AlphaZero诞生...
  • mcumsj1
  • mcumsj1
  • 2017年04月15日 21:43
  • 3584

AlphaGo Zero到底强在哪里?

当然,最好的材料还是看原版论文。原版论文都没看就别跟别人凑热闹,瞎逼逼了。AlphaGo之前的论文也需要仔细看看,不然可能不明白diff在什么地方。 AlphaGo Zero《Mastering th...
  • Dinosoft
  • Dinosoft
  • 2017年10月22日 00:18
  • 1097

论文 | AlphaGo Zero 的模型和算法

上一篇文章简单学习了 AlphaGo Zero 的特点:AlphaGo Zero 初探http://www.jianshu.com/u/7b67af2e61b3算法采用自对弈强化学习,不再需要学习人类...
  • G88JmvEHMsJ1kd4v0c
  • G88JmvEHMsJ1kd4v0c
  • 2017年11月10日 00:00
  • 435

【强化学习】AlphaGo Zero详解

1 简介 AlphaGo Zero(以下简称Zero)的过程如下图a、b所示,在每个状态s,通过MCTS搜索,获得每个可能move的概率p,其中MCTS搜索采用self-play并执行fθ策略。fθ...
  • zkq_1986
  • zkq_1986
  • 2017年10月30日 10:57
  • 353

如何动手打造属于自己的AlphaGo Zero?

Petr Baudis是捷克布拉格技术大学的一名博士生,他也是创业公司Rossum.ai的创始人。近日,Petr在Medium上发表了一篇博客,结合自己在强化学习方面的研究以及在围棋方面的应用讲述了如...
  • qq_19598705
  • qq_19598705
  • 2017年11月28日 21:15
  • 552

AlphaGo开源代码

https://github.com/Rochester-NRT/AlphaGo注:本人只是搬运工。。。。
  • libinbin_1014
  • libinbin_1014
  • 2016年03月12日 21:38
  • 3746
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类! PENG Bo
举报原因:
原因补充:

(最多只允许输入30个字)