蒙特卡洛树搜索算法(MCTS)

最新推荐文章于 2025-04-02 13:58:05 发布

迷麟Milin

最新推荐文章于 2025-04-02 13:58:05 发布

阅读量1.9w

点赞数 12

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41705423/article/details/104082909

版权

Machine Learning 专栏收录该内容

13 篇文章

订阅专栏

蒙特卡洛树搜索（MCTS）是一种适用于大规模搜索空间的启发式搜索算法，它结合了博弈论、黑盒优化和UCB算法。MCTS包括选择、扩展、模拟和回溯四个阶段，常用于解决零和、完全信息、确定性、顺序和离散的游戏问题。在搜索过程中，通过UCB公式选择最有潜力的节点进行扩展，通过随机模拟获得节点的评分，并通过反向传播更新节点信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

蒙特卡洛树搜索(MCTS)

参考网址：https://zhuanlan.zhihu.com/p/30458774

定义

Monte Carlo Tree Search，是一类树搜索算法的统称。

蒙特卡洛树搜索是一种基于树数据结构、能在搜索空间巨大仍然比较有效的启发式搜索算法
MCTS是一种逼近纳什均衡的搜索策略。

应用场景

搜索空间巨大
zero-sum、fully information、determinism、sequential、discrete
第二点即：场景能分出输赢、游戏信息完全公开、每一个操作结果没有随机因素、操作按顺序执行、没有操作是一种连续值
只能解决Combinatorial Game的问题

四大阶段

Selection、Expansion、Simulation_和_Backpropagation（选择、扩展、模拟、回溯）

理论基础

一、Game Theory（博弈论）

1. 纳什均衡点

定义

minmax算法最终达到的平衡点

2. minmax算法

图1 minmax算法示意图

应用

在搜索树中，每次轮到黑棋走时，走对黑棋最有利的；轮到白棋走时，走对黑棋最不利的。

二、Black Box Optimization（黑盒优化）

无法得知场景内部的函数或模型结果，只能通过输入和输出对算法进行优化。

示例

进化算法、贝叶斯优化、MCTS

三、UCB算法基础

与蒙特卡洛搜索算法关系说明

UCB: 指UCB公式（Upper Confidence Bound），公式为：

$V_i + C \sqrt{\frac{lnN}{n_i}}$

UCT 算法：UCB for Tree的算法，最经典的蒙特卡罗树搜索算法

UCT = MCTS + UCB
UCB1：一种简单而广泛使用的UCB公式

$V_i + \sqrt{\frac{2 lnN}{n_i}}$

四、MCTS过程

图2 MSTC 1次迭代的 4个步骤

UCT (UCB for Tree)算法

蒙特卡罗树搜索大概可以被分成四步。选择(Selection)，拓展(Expansion)，模拟(Simulation)，反向传播(Backpropagation)。

在开始阶段，搜索树只有一个节点，也就是我们需要决策的局面。

搜索树中的每一个节点包含了三个基本信息：代表的局面，被访问的次数，累计评分。

[1]选择(Selection)

在选择阶段，需要从根节点，也就是要做决策的局面R出发向下选择出一个最急迫需要被拓展的节点N，局面R是是每一次迭代中第一个被检查的节点；

对于被检查的局面而言，他可能有三种可能：

1)该节点所有可行动作都已经被拓展过

2)该节点有可行动作还未被拓展过

3)这个节点游戏已经结束了(例如已经连成五子的五子棋局面)

对于这三种可能：

1)如果所有可行动作都已经被拓展过了，那么我们将使用UCB公式计算该节点所有子节点的UCB值，并找到值最大的一个子节点继续检查。反复向下迭代。

2)如果被检查的局面依然存在没有被拓展的子节点(例如说某节点有20个可行动作，但是在搜索树中才创建了19个子节点)，那么我们认为这个节点就是本次迭代的的目标节点N，并找出N还未被拓展的动作A。执行步骤[2]

3)如果被检查到的节点是一个游戏已经结束的节点。那么从该节点直接执行步骤{4]。

每一个被检查的节点的被访问次数在这个阶段都会自增。

在反复的迭代之后，我们将在搜索树的底端找到一个节点，来继续后面的步骤。

[2]拓展(Expansion)

在选择阶段结束时候，我们查找到了一个最迫切被拓展的节点N，以及他一个尚未拓展的动作A。在搜索树中创建一个新的节点Nn作为N的一个新子节点。Nn的局面就是节点N在执行了动作A之后的局面。

[3]模拟(Simulation)

为了让Nn得到一个初始的评分。我们从Nn开始，让游戏随机进行，直到得到一个游戏结局，这个结局将作为Nn的初始评分。一般使用胜利/失败来作为评分，只有1或者0。

[4]反向传播(Backpropagation)

在Nn的模拟结束之后，它的父节点N以及从根节点到N的路径上的所有节点都会根据本次模拟的结果来添加自己的累计评分。如果在[1]的选择中直接发现了一个游戏结局的话，根据该结局来更新评分。

每一次迭代都会拓展搜索树，随着迭代次数的增加，搜索树的规模也不断增加。当到了一定的迭代次数或者时间之后结束，选择根节点下最好的子节点作为本次决策的结果。

上面描述的是UCT (UCB for Tree)算法，可以说是最经典的蒙特卡罗树搜索算法了。但随着算法的发展，MCTS已经有了非常大的改变。例如很多围棋AI都已经不再使用纯粹的UCB公式而改用效果更好的UCB1-Tuned了[2]，而搜索方法上也有了非常多的改动了。

MCTS 和 UCT

Kocsis 和 Szepervari 在 2006 年首先构建了一个完备的 MCTS 算法，通过扩展 UCB 到 minimax 树搜索，并将其命名为 Upper Confidence Bounds for Trees（UCT）方法。这其实是用在当前众多 MCTS 实现中的算法版本。

UCT 可以被描述为 MCTS 的一个特例：UCT = MCTS + UCB。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。