论文:
代码:
https://github.com/junxiaosong/AlphaZero_Gomoku
理解:
0.应用领域:完美信息零和博弈,但是可以不对称规则,位置相关规则,表述更加丰富
1.将应用在围棋领域的alphago zero拓展到了象棋和将棋领域,围棋表述和输出相对简单,因为表述是布尔的,输出只有位置信息,而象棋要复杂一些,使用了如下方法:
2.训练的时候不再使用55%的胜率替代原有网络,而是持续迭代更新一个网络,最后输出最后一个网络。
3.针对不同的游戏损失函数,网络结构是一致的,不同在于输入输出的结构。
上面为可能的结构。
输入分为两种,分别为binary planes 和real-valued。
论文中描述: Counts are represented by a single real-valued input(计数由单个实值输入表示),other input features are represented by a one-hot encoding using the specified number of binary input planes(其他输入特征由使用指定数量的二进制输入平面的单热编码表示)
所以网络的结构应该也有变化,添加了实值输入的头。
4.输出
这些棋类的动作相对简单,只需要选择一个棋子,然后给一个合法的空间坐标就行,所以都是根据对应起来的规则,使用n*m*l的方式作为输出,n,m为棋盘的长宽,l用不同的层表示不同的棋子和对应的动作位置。