alpha zero说明

  1. 只有一个神经网络,采用最原始的棋盘信息,输出状态s的行棋概率p和价值v(就是胜利的概率)
  2. 使用了残差网络
  3. 每一步操作之后,都更新神经网络
  4. 每条edge代表一种状态下的一种操作。需要记录3个值,P(s,a)操作概率,N(s,a)访问次数,Q(s,a)操作价值(胜利概率)
  5. MCTS探索中,每次行棋都遵从最大化UCB(这个只是模拟中的探索策略,不是最终的行棋策略π)
  6. 碰到叶子结点s′,开始expand,根据神经网络得到s′的操作概率P和价值V,P保存在s′的后继操作的edge内。本次模拟结束,然后开始更新本次模拟经历过的edge的N(s,a)和Q(s,a)
  7. 多次MCTS后,获得最终策略π,可以简单的看为πa ∝ N(s,a)1/τ,即越是好的操作,尝试的次数越多
  8. 每次MCTS中,更新的是探索策略。多次MCTS后,根据树内的参数,获得新的行棋概率π和价值函数z。pπ交叉熵+vz方差=loss,据此loss获得梯度,更新神经网络参数
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值