AlphaGo结构资料整理

最新推荐文章于 2023-12-27 18:00:47 发布

物之二元

最新推荐文章于 2023-12-27 18:00:47 发布

阅读量1.9k

点赞数

分类专栏：机器学习文章标签：深度学习神经网络谷歌 alphaGO

本文链接：https://blog.csdn.net/jaguar500/article/details/51726294

版权

AlphaGo主要由策略网络（policy net）和价值网络（value net）组成，结合蒙特卡洛树搜索方法进行棋局决策。策略网络通过监督和强化学习进行训练，提供落子策略；价值网络则采用强化学习进行多步骤状态价值估计。训练过程中，Google的分布式神经网络框架distBelief用于并行计算，以应对大规模数据和实时计算需求。

摘要由CSDN通过智能技术生成

在棋局类游戏AI设计中，Monte Carlo tree search (MCTS) 一直是最主要的方法，包括alphaGO出现之前比较流行的开源围棋AI程序Pachi。alphaGO也没有脱离这个基本方法，其主要创新在于将深度神经网络结合到了MCTS的框架里。

根据[1]，AlphaGo的主要结构包括2个网络：policy net & value net. 前者用于提供如何落子的策略，如预测对手下一手棋的分布概率；后者用于估算当前棋局下一方获胜的概率。两个网络的结构类似，皆为多层CNN（policy net 13层，中间层rectified nonlinear unit，输出层softmax unit，应该没有pooling层），区别在于，policy net 的输出和输入维度相同，因为要为棋盘每个位置输出概率分布，而value net 输出仅为当前棋局的一个评估值（1D），所以在最后一层加了一个全连接的单节点。

* 用数学表示，policy net 为了获得P(a|s), 根据SL/RL的不同分别标记为 Ps(a|s) 和 Pr(a|s)，value net 为了获得 Vp(s), p is policy。

尽管网络只有2个，但训练策略不止于此，也就是每个网络用了多种方法进行训练。

policy net 的训练方法：(1) 监督学习阶段(SL policy)。训练数据来源：职业棋手的棋谱数据库；(2) 强化学习阶段(RL policy)。在SL policy的训练结果作为初始，用policy gradient 强化学习(PGRL) 进行进一步优化；训练方法：和前一个版本的alphaGO进行对战&#x