蒙特卡洛树搜索的主要流程有哪些_「详细原理」蒙特卡洛树搜索入门教程

番言

于 2020-12-30 16:13:37 发布

阅读量3k

点赞数

文章标签：蒙特卡洛树搜索的主要流程有哪些

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28707739/article/details/112051381

版权

本文是对 Monte Carlo Tree Search – beginners guide 这篇文章的文章大体翻译，以及对其代码的解释。

1 引言

蒙特卡洛树搜索在2006年被Rémi Coulom第一次提出，应用于Crazy Stone的围棋游戏。Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search

蒙特卡洛树搜索大概的思想就是给定一个游戏状态，去选择一个最佳的策略/动作。

1.1 有限双人零和序贯博弈

蒙特卡洛树搜索实际上是一个应用非常广泛的博弈框架，这里我们将其应用于有限双人序贯零和博弈问题中。像围棋、象棋、Tic-Tac-Toe都是有限双人序贯零和博弈游戏。

1.2 怎样去表示一个游戏?

我们采用博弈树 (Game Tree)来表示一个游戏：每个结点都代表一个状态 (state)，从一个结点 (node)移动一步，将会到达它的子节点 (children node)。子节点的个数叫作分支因子 (branching factor)。根节点 (Root node)表示初始状态(initial state)。终止节点 (terminal nodes)没有子节点了。

在 tic-tac-toe 游戏中表示如下图所示：

每次都是从初始状态、树的根结点开始。在 tic-tac-toe 游戏里面初始状态就是一张空的棋盘。

从一个节点转移到另一个节点叫作一个 move 。

分支因子 (branching factor)， tic-tac-toe 中树越深，分支因子也越少，也就是 children node 的数量越少。

游戏结束表示终止节点。

从根节点到终止节点一次表示一个单个游戏 playout 。

你不需要关系你是怎么来到这个 node ，只需要做好之后的事情就好了。

1.3 最佳策略是什么？minimax和alpha-beta剪枝

我们希望找到的就是最佳策略 ( the most promising next move )。如果你知道对手的策略那你可以争对这个策略求解，但是大多数情况下是不知道对手的策略的，所以我们需要用 minimax 的方法，假设你的对手是非常机智的，每次他都会采取最佳策略。

假设A与B博弈，A期望最大化自己的收益，因为是零和博弈，所以B期望A的收益最小，Minimax算法可描述为如下形式：和是玩家和的效益函数。

move 表示从当前状态和采取的动作转移到下一个状态。

eval 评估最终的游戏分数。

是最终的游戏状态。</

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
蒙特卡洛树搜索的主要流程有哪些_「详细原理」蒙特卡洛树搜索入门教程

本文是对 Monte Carlo Tree Search – beginners guide 这篇文章的文章大体翻译，以及对其代码的解释。1 引言蒙特卡洛树搜索在2006年被Rémi Coulom第一次提出，应用于Crazy Stone的围棋游戏。Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search蒙特卡洛树搜索...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。