AlphaGo的训练中,主要涉及三个核心网络、四个重要部分
三个核心网络:
1、有监督的CNN:学习大量高手棋谱,实现‘快速成长’
2、估值网络VL:实战中,value-learn会对系统的下一步落子的策略,做评估
3、强化学习网络 RL:计算机不断‘自我对弈’,并在整盘棋下完后,对胜败结果做反馈,从而对整盘棋落子的合理性打分,协助系统落子。
四个重要部分:
1、走棋网络:给定抢钱局面,采样当前棋局,预测下一步的走棋
2、快速走子:在每一步落子期间,在当前情况下,快速走完所有情况,修正估值网络的参数
3、估值网络:给定当前局,估计白棋胜还是黑棋胜
4、蒙特卡洛树搜索:连接以上环节
AlphaGo的全过程:
深度剖析各网络:
1、16万盘高手对弈棋谱的CNN训练,拟合效果达到57%。
1)特征有专家设定为48种特征,即输入数据为19*19*48
2)网络只卷基层就有13层,且无全连接层,以1*1的卷积层取代