Alpha Zero论文理解笔记

结合知乎专栏https://zhuanlan.zhihu.com/p/32089487 对alpha zero论文进行了学习


用MCTS方法进行自博弈得到的棋局训练策略价值网络

• 策略价值网络
○ 是用来描述a list of (action, probability) tuples for each available action and the score of the board state
○ 输入:若干个局部棋面描述4*8*8
○ 输出:(p,v)
○ 网络结构:
公共的3层全卷积网络,分别使用32、64和128个 
3*3的filter,使用ReLu激活函数。然后再分成policy和value两个输出,在policy这一端,先使用4个 1*1
的filter进行降维,再接一个全连接层,使用softmax非线性函数直接输出棋盘上每个位置的落子概率;在value这一端,先使用2个 1*1的filter进行降维,再接一个64个神经元的全连接层,最后再接一个全连接层,使用tanh非线性函数直接输出 
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MCTS (Monte Carlo Tree Search) 是一种搜索算法,而AlphaZero是一个基于MCTS的计算机程序,用于下棋游戏的AI。AlphaZero最初由DeepMind公司于2017年开发,旨在通过机器学习方法,让计算机在没有人类先验知识的情况下自主学习并在多个棋类游戏中表现优秀。 AlphaZero的核心思想是,通过MCTS算法来搜索可能的下棋行动。具体而言,它会在一个树形结构中不断扩展和更新节点,在搜索的过程中模拟下棋步骤并评估当前局势。这个过程会迭代多次,不断更新节点的统计信息,以便为每个行动分配更准确的价值。这样一来,AlphaZero能够在大量随机对局和搜索之后,找到较为优秀的下棋策略。 与传统的基于规则的AI不同,AlphaZero不依赖于任何人类先验知识,它完全通过自我对弈学习下棋策略。通过让多个AlphaZero实例互相对弈,并将胜利者的策略赋予其他实例继续学习,AlphaZero能够通过大量训练提升自己的下棋能力。在最初的实验中,AlphaZero以惊人的速度学会了下围棋和国际象棋,并战胜了多个世界冠军级别的选手。 MCTS算法以及AlphaZero的结合使得计算机能够通过模拟、学习和演化获得高水平的棋类游戏策略。这种方法不仅能够应用于围棋和国际象棋等复杂的游戏,还能够扩展到其他领域,如推理、决策和规划等。AlphaZero的出现引发了人工智能领域对于强化学习以及无监督学习的广泛讨论,也为AI在复杂任务中的应用带来了新的思路。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值