Monte Carlo Tree Search
围棋的空间太大,很难用树形结构全部罗列展开,比如MinMax,所以用Monte Carlo Tree Search 对某个节点之后的情况进行随机模拟
Multi-Armed Bandit Problem
这个是著名的老虎机问题
xi代表玩第i台老虎机平均赢到的钱,后面根式里的表达式让算法有机会去尝试其他机器。如果一直玩同一台机器的话,n和ni都都会变大,根式里面会变小。对于其他机器来说n变大因为没有玩,ni不变,所以整体就会变大,所以程序就会跳去玩其他机器。
这里是利用CNN来训练网络下围棋的示意图