图解Alphago原理

最新推荐文章于 2019-02-09 22:32:29 发布

weixin_33908217

最新推荐文章于 2019-02-09 22:32:29 发布

阅读量294

点赞数

文章标签： python java

原文链接：https://yq.aliyun.com/articles/8239

版权

电脑是下围棋要做些什么

4b2175e898e4bc4229c4d8246bbc8008d6cb790b

如何决定下一步是最优的，最原始的方法是这样的…

00f91db0044fdb55ed5b7f9e1fa501e8e754c665

然后，悲剧了，搜索空间如宇宙星空

280d763c4b57b004c25358b536e771c04891993c

OK，来看看Alphago怎么搞的

8066641c0a759c85528199ceaae0182ed7f2df5e

关键是降低搜索广度与深度

d7bd414a93e069c0399e240a5a586ef9f1bf02e0

假如....

c9008d94d5302c3240872bef97feec071e95258c

又假如...

9faa86b6f2ef682dec7a5a54033fc29016d9230e

那Alphago是怎么搞的？构建两种专家模型：落子预测器＋棋盘价值评估器

d66e4aa38f9a8dcb03479c81af7a43c584218de8

两个专家模型使用深度学习技术，论文上称政策网络（policy network）＋价值网络（value network）

69db5ba9343ad0f7a400b5499d993935db38ceb0

25074088339ff1e3d651af79aa63094e9705baea

最后看看如何Alphago下棋吧，Alphago打的是组合拳：蒙特卡洛搜索树＋政策网络＋价值网络共同作用：

Case 1: 落子选择器
Case 2: 落子选择器＋蒙特卡洛树搜索（推演到最后结果）
Case 3: 落子选择器＋蒙特卡洛树搜索（局部窗口）＋棋局价值评估器

Alphago相关有用的资料汇总

围棋简单入门视频教程：http://sports.letv.com/video/24863582.html
一张图解AlphaGo原理及弱点 by 郑宇，张钧波 CKDD：http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==&mid=402241411&idx=1&sn=98557fdc359a17af9ab6b1ed7e09854a&scene=2&srcid=0314rM6ivyxIaEMfKIaW167Z&from=timeline&isappinstalled=0#wechat_redirect
知乎的Alphago讨论：http://www.zhihu.com/question/39906815
DeepMind强化学习课程（很棒）：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
David Silver以前所在的UCL的研究项目-研究蒙特卡洛搜索树在游戏中的应用，包含JAVA和Python的代码：http://mcts.ai/about/index.html
github上别人用theano实现的Alphago：https://github.com/Rochester-NRT/AlphaGo

weixin_33908217

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
图解Alphago原理

电脑是下围棋要做些什么如何决定下一步是最优的，最原始的方法是这样的…然后，悲剧了，搜索空间如宇宙星空OK，来看看Alphago怎么搞的关键是降低搜索广度与深度假如....又假如...那Alphago是怎么搞的？构建两种专家模型：落子预测器＋棋盘价值评估器两个专家模型使用深度学习技术，论文上称政策网络（policy net...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。