alpha zero说明

最新推荐文章于 2024-07-06 19:35:28 发布

war3gu

最新推荐文章于 2024-07-06 19:35:28 发布

阅读量1k

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/war3gu/article/details/90640743

版权

强化学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    只有一个神经网络，采用最原始的棋盘信息，输出状态s的行棋概率p和价值v（就是胜利的概率）
使用了残差网络
每一步操作之后，都更新神经网络
每条edge代表一种状态下的一种操作。需要记录3个值，P(s,a)操作概率，N(s,a)访问次数，Q(s,a)操作价值（胜利概率）
MCTS探索中，每次行棋都遵从最大化UCB（这个只是模拟中的探索策略，不是最终的行棋策略π）
碰到叶子结点s′，开始expand，根据神经网络得到s′的操作概率P和价值V,P保存在s′的后继操作的edge内。本次模拟结束，然后开始更新本次模拟经历过的edge的N(s,a)和Q(s,a)
多次MCTS后，获得最终策略π，可以简单的看为πa ∝ N(s,a)1/τ，即越是好的操作，尝试的次数越多
每次MCTS中，更新的是探索策略。多次MCTS后，根据树内的参数，获得新的行棋概率π和价值函数z。pπ交叉熵+vz方差=loss，据此loss获得梯度，更新神经网络参数

                

war3gu

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
alpha zero说明

只有一个神经网络，采用最原始的棋盘信息，输出状态s的行棋概率p和价值v（就是胜利的概率）使用了残差网络每一步操作之后，都更新神经网络每条edge代表一种状态下的一种操作。需要记录3个值，P(s,a)操作概率，N(s,a)访问次数，Q(s,a)操作价值（胜利概率）MCTS探索中，每次行棋都遵从最大化UCB（这个只是模拟中的探索策略，不是最终的行棋策略π）碰到叶子结点s′，开始expand...
复制链接

扫一扫

专栏目录