MCTS and Alpha-Beta Search | 搜索算法对比 | 附Alpha Zero论文下载 | 解读技术

懒人阅读:DeepMind认为,MCTS是一种强大的具有领域独立性的搜索算法,可以让可能的搜索误差平均化,当评估一个很大的子树集时,由于倾向于抵消误差而达到一种平衡。相对而言,alpha-beta搜索计算了一个精确的极小极大值,反而向根节点的子树集传播了最大的近似误差


公众号回复:20171211,全文下载了解DeepMind实现AlphaZero的核心方法






       关于蒙特卡洛搜索和阿尔法-贝塔搜索的特点对比,我们来听听DeepMind团队的观点。在最近发表的关于AlphaZero的文章《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》中,对于MCTS和Alpha-Beta两种搜索算法进行了评价。





译文如下

       至少四十余年的时间里,最强大的国际象棋计算机程序使用的是alpha-beta搜索。AlphaZero使用了明显不同的方法,即在子树集内平均化位置的评估,而不是计算其的极小极大值。然而,在国际象棋程序中使用传统的MCTS明显弱于alpha-beta搜索程序,而基于神经网络的alpha-beta程序又无法与更加快速的人工设定评估函数相比。

       AlphaZero使用基于深度神经网络的非线性函数近对位置进行近似评估,而不是像典型国际象棋程序一样使用线性函数。传统方式有更强的表现性,但是也可能引入很大的近似误差。MCTS则让这种误差平均化,当评估一个很大的子树集时,由于倾向于抵消误差而达到一种平衡。相对而言,alpha-beta搜索计算了一个精确的极小极大值,反而向根节点的子树集传播了最大的近似误差。使用MCTS使得AlphaZero将神经网络的表现能力与一个强大的具有领域独立性的搜索算法进行了有效结合。





原文如下





善用智能之道:行业动态、技术前沿、产业服务,欢迎关注联系:九三智能控


PS:可申请进入微信群交流,不定期分享资料,拓展行业人脉。添加微信:yan_kylin,注明名字+研究领域/专业/学校/公司,或在公众号留言。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MCTS (Monte Carlo Tree Search) 是一种搜索算法,而AlphaZero是一个基于MCTS的计算机程序,用于下棋游戏的AI。AlphaZero最初由DeepMind公司于2017年开发,旨在通过机器学习方法,让计算机在没有人类先验知识的情况下自主学习并在多个棋类游戏中表现优秀。 AlphaZero的核心思想是,通过MCTS算法来搜索可能的下棋行动。具体而言,它会在一个树形结构中不断扩展和更新节点,在搜索的过程中模拟下棋步骤并评估当前局势。这个过程会迭代多次,不断更新节点的统计信息,以便为每个行动分配更准确的价值。这样一来,AlphaZero能够在大量随机对局和搜索之后,找到较为优秀的下棋策略。 与传统的基于规则的AI不同,AlphaZero不依赖于任何人类先验知识,它完全通过自我对弈学习下棋策略。通过让多个AlphaZero实例互相对弈,并将胜利者的策略赋予其他实例继续学习,AlphaZero能够通过大量训练提升自己的下棋能力。在最初的实验中,AlphaZero以惊人的速度学会了下围棋和国际象棋,并战胜了多个世界冠军级别的选手。 MCTS算法以及AlphaZero的结合使得计算机能够通过模拟、学习和演化获得高水平的棋类游戏策略。这种方法不仅能够应用于围棋和国际象棋等复杂的游戏,还能够扩展到其他领域,如推理、决策和规划等。AlphaZero的出现引发了人工智能领域对于强化学习以及无监督学习的广泛讨论,也为AI在复杂任务中的应用带来了新的思路。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值