结合知乎专栏https://zhuanlan.zhihu.com/p/32089487 对alpha zero论文进行了学习
用MCTS方法进行自博弈得到的棋局训练策略价值网络
• 策略价值网络○ 是用来描述a list of (action, probability) tuples for each available action and the score of the board state
○ 输入:若干个局部棋面描述4*8*8
○ 输出:(p,v)
○ 网络结构:
公共的3层全卷积网络,分别使用32、64和128个
3*3的filter,使用ReLu激活函数。然后再分成policy和value两个输出,在policy这一端,先使用4个 1*1
的filter进行降维,再接一个全连接层,使用softmax非线性函数直接输出棋盘上每个位置的落子概率;在value这一端,先使用2个 1*1的filter进行降维,再接一个64个神经元的全连接层,最后再接一个全连接层,使用tanh非线性函数直接输出