算法学习(六)——alpha Zero模型

论文:

https://xueshu.baidu.com/usercenter/paper/show?paperid=dba68ff4f67c98a046754cf804cf1d7e&site=xueshu_se

代码:

https://github.com/junxiaosong/AlphaZero_Gomoku

理解:

0.应用领域:完美信息零和博弈,但是可以不对称规则,位置相关规则,表述更加丰富

1.将应用在围棋领域的alphago zero拓展到了象棋和将棋领域,围棋表述和输出相对简单,因为表述是布尔的,输出只有位置信息,而象棋要复杂一些,使用了如下方法:

2.训练的时候不再使用55%的胜率替代原有网络,而是持续迭代更新一个网络,最后输出最后一个网络。

3.针对不同的游戏损失函数,网络结构是一致的,不同在于输入输出的结构。

上面为可能的结构。

输入分为两种,分别为binary planes 和real-valued。

论文中描述: Counts are represented by a single real-valued input(计数由单个实值输入表示),other input features are represented by a one-hot encoding using the specified number of binary input planes(其他输入特征由使用指定数量的二进制输入平面的单热编码表示)

所以网络的结构应该也有变化,添加了实值输入的头。

4.输出

这些棋类的动作相对简单,只需要选择一个棋子,然后给一个合法的空间坐标就行,所以都是根据对应起来的规则,使用n*m*l的方式作为输出,n,m为棋盘的长宽,l用不同的层表示不同的棋子和对应的动作位置。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值