AlphaGo结构资料整理

AlphaGo主要由策略网络(policy net)和价值网络(value net)组成,结合蒙特卡洛树搜索方法进行棋局决策。策略网络通过监督和强化学习进行训练,提供落子策略;价值网络则采用强化学习进行多步骤状态价值估计。训练过程中,Google的分布式神经网络框架distBelief用于并行计算,以应对大规模数据和实时计算需求。
摘要由CSDN通过智能技术生成

在棋局类游戏AI设计中,Monte Carlo tree search (MCTS) 一直是最主要的方法,包括alphaGO出现之前比较流行的开源围棋AI程序Pachi。alphaGO也没有脱离这个基本方法,其主要创新在于将深度神经网络结合到了MCTS的框架里。

根据[1],AlphaGo的主要结构包括2个网络:policy net & value net. 前者用于提供如何落子的策略,如预测对手下一手棋的分布概率;后者用于估算当前棋局下一方获胜的概率。两个网络的结构类似,皆为多层CNN(policy net 13层,中间层rectified nonlinear unit,输出层softmax unit,应该没有pooling层),区别在于,policy net 的输出和输入维度相同,因为要为棋盘每个位置输出概率分布,而value net 输出仅为当前棋局的一个评估值(1D),所以在最后一层加了一个全连接的单节点。


* 用数学表示,policy net 为了获得P(a|s), 根据SL/RL的不同分别标记为 Ps(a|s) 和 Pr(a|s),value net 为了获得 Vp(s), p is policy。

尽管网络只有2个,但训练策略不止于此,也就是每个网络用了多种方法进行训练。

policy net 的训练方法:(1) 监督学习阶段(SL policy)。训练数据来源:职业棋手的棋谱数据库;(2)  强化学习阶段(RL policy)。在SL policy的训练结果作为初始,用policy gradient 强化学习(PGRL) 进行进一步优化;训练方法:和前一个版本的alphaGO进行对战&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值