图解Alphago原理

电脑是下围棋要做些什么

4b2175e898e4bc4229c4d8246bbc8008d6cb790b

如何决定下一步是最优的,最原始的方法是这样的…

00f91db0044fdb55ed5b7f9e1fa501e8e754c665

然后,悲剧了,搜索空间如宇宙星空

280d763c4b57b004c25358b536e771c04891993c

OK,来看看Alphago怎么搞的

8066641c0a759c85528199ceaae0182ed7f2df5e

关键是降低搜索广度与深度

d7bd414a93e069c0399e240a5a586ef9f1bf02e0

假如....

c9008d94d5302c3240872bef97feec071e95258c

又假如...

9faa86b6f2ef682dec7a5a54033fc29016d9230e

那Alphago是怎么搞的?构建两种专家模型:落子预测器 +棋盘价值评估器

d66e4aa38f9a8dcb03479c81af7a43c584218de8

两个专家模型使用深度学习技术,论文上称政策网络(policy network)+价值网络(value network)

69db5ba9343ad0f7a400b5499d993935db38ceb0
25074088339ff1e3d651af79aa63094e9705baea

最后看看如何Alphago下棋吧,Alphago打的是组合拳:蒙特卡洛搜索树+政策网络+价值网络共同作用:

  • Case 1: 落子选择器

    f7cb18b5f3cb7722b3324851d612f3d31065d849
  • Case 2: 落子选择器 + 蒙特卡洛树搜索(推演到最后结果)

    6a1d9f0fd7dbf9813ad33516661bf9e4d1b9e18c
  • Case 3: 落子选择器 + 蒙特卡洛树搜索(局部窗口) + 棋局价值评估器

    9e33856f117022fffddc974615b471b8cba1e847

Alphago相关有用的资料汇总

  1. 围棋简单入门视频教程:http://sports.letv.com/video/24863582.html
  2. 一张图解AlphaGo原理及弱点 by 郑宇,张钧波 CKDD:http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==&mid=402241411&idx=1&sn=98557fdc359a17af9ab6b1ed7e09854a&scene=2&srcid=0314rM6ivyxIaEMfKIaW167Z&from=timeline&isappinstalled=0#wechat_redirect
  3. 知乎的Alphago讨论:http://www.zhihu.com/question/39906815
  4. DeepMind强化学习课程(很棒):http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
  5. David Silver以前所在的UCL的研究项目-研究蒙特卡洛搜索树在游戏中的应用,包含JAVA和Python的代码:http://mcts.ai/about/index.html
  6. github上别人用theano实现的Alphago:https://github.com/Rochester-NRT/AlphaGo
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值