AlphaGo原理
三个深度策略网络 (Policy Networks),一个深度估值网络 (Value Network)
深度策略网络 Supervised Learning Policy Network
优化分析 :
棋盘特征 :
落子颜色 (Stone Color)
轮次 (Turn Since):
气(Liberty):
打吃数量:
征子(Ladder):
合法性(Sensibility):
深度策略网络Reinforcement Learning Policy Network
强化学习训练策略:
训练细节和结果:
深度估值网络 Rollout Policy Network
下棋方法——蒙特卡洛树搜索 (Monte Carlo Tree Search)
多次模拟未来棋局,然后选择在模拟中选择次数最多的走法
u增加选择多样性
AlphaGo Zero 的改进
(1)完全不需要人类棋谱,采用自己和自己下棋的方式学习。
(2)将走棋网络和估值网络合并为一个网络:
自学习过程和神经网络训练过程