电脑是下围棋要做些什么
![4b2175e898e4bc4229c4d8246bbc8008d6cb790b](http://img1.tbcdn.cn/L1/461/1/4b2175e898e4bc4229c4d8246bbc8008d6cb790b.png)
如何决定下一步是最优的,最原始的方法是这样的…
![00f91db0044fdb55ed5b7f9e1fa501e8e754c665](http://img3.tbcdn.cn/L1/461/1/00f91db0044fdb55ed5b7f9e1fa501e8e754c665.png)
然后,悲剧了,搜索空间如宇宙星空
![280d763c4b57b004c25358b536e771c04891993c](http://img1.tbcdn.cn/L1/461/1/280d763c4b57b004c25358b536e771c04891993c.png)
OK,来看看Alphago怎么搞的
![8066641c0a759c85528199ceaae0182ed7f2df5e](http://img3.tbcdn.cn/L1/461/1/8066641c0a759c85528199ceaae0182ed7f2df5e.png)
关键是降低搜索广度与深度
![d7bd414a93e069c0399e240a5a586ef9f1bf02e0](http://img4.tbcdn.cn/L1/461/1/d7bd414a93e069c0399e240a5a586ef9f1bf02e0.png)
假如....
![c9008d94d5302c3240872bef97feec071e95258c](http://img2.tbcdn.cn/L1/461/1/c9008d94d5302c3240872bef97feec071e95258c.png)
又假如...
![9faa86b6f2ef682dec7a5a54033fc29016d9230e](http://img2.tbcdn.cn/L1/461/1/9faa86b6f2ef682dec7a5a54033fc29016d9230e.png)
那Alphago是怎么搞的?构建两种专家模型:落子预测器 +棋盘价值评估器
![d66e4aa38f9a8dcb03479c81af7a43c584218de8](http://img1.tbcdn.cn/L1/461/1/d66e4aa38f9a8dcb03479c81af7a43c584218de8.png)
两个专家模型使用深度学习技术,论文上称政策网络(policy network)+价值网络(value network)
![69db5ba9343ad0f7a400b5499d993935db38ceb0](http://img3.tbcdn.cn/L1/461/1/69db5ba9343ad0f7a400b5499d993935db38ceb0.png)
![25074088339ff1e3d651af79aa63094e9705baea](http://img3.tbcdn.cn/L1/461/1/25074088339ff1e3d651af79aa63094e9705baea.png)
最后看看如何Alphago下棋吧,Alphago打的是组合拳:蒙特卡洛搜索树+政策网络+价值网络共同作用:
-
Case 1: 落子选择器
-
Case 2: 落子选择器 + 蒙特卡洛树搜索(推演到最后结果)
-
Case 3: 落子选择器 + 蒙特卡洛树搜索(局部窗口) + 棋局价值评估器
Alphago相关有用的资料汇总
- 围棋简单入门视频教程:http://sports.letv.com/video/24863582.html
- 一张图解AlphaGo原理及弱点 by 郑宇,张钧波 CKDD:http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==&mid=402241411&idx=1&sn=98557fdc359a17af9ab6b1ed7e09854a&scene=2&srcid=0314rM6ivyxIaEMfKIaW167Z&from=timeline&isappinstalled=0#wechat_redirect
- 知乎的Alphago讨论:http://www.zhihu.com/question/39906815
- DeepMind强化学习课程(很棒):http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
- David Silver以前所在的UCL的研究项目-研究蒙特卡洛搜索树在游戏中的应用,包含JAVA和Python的代码:http://mcts.ai/about/index.html
- github上别人用theano实现的Alphago:https://github.com/Rochester-NRT/AlphaGo