蒙特卡洛树搜索（MCTS）日记1

神之牛

已于 2024-09-05 10:54:02 修改

阅读量1.3k

点赞数 47

文章标签：人工智能

于 2024-09-05 10:53:16 首次发布

本文链接：https://blog.csdn.net/2301_77968183/article/details/141892716

版权

1.蒙特卡洛树搜索是什么

自2006年两篇MCTS论文的发布[1,2]，人们认识到MCTS在棋类博弈游戏的巨大前景。特别是2016年谷歌推出的AlphaGo击败世界冠军李世石，引发人们对ai的巨大热情。而AlphaGo是采用了神经学习与MCTS结合的框架，造就了这个产物。

monte carlo tree search（MCTS）是将蒙特卡洛模拟与树搜索结合起来的算法，是应用于树表示的解空间中寻找决策的算法。MCTS的思路是：

第一步，根据先验知识设定的价值评估函数（可能没有），选择出当前决策树还能拓展孩子的最大价值节点。初始化时，价值为0；

第二步，为选出的最大节点添加一个孩子（这一步思路很简单，但如果你要写代码就知道多麻烦了）；

第三步，从该孩子表示的状态进行模拟推演直到游戏结束；

第四步，将游戏输赢的信息反馈回孩子及其所有直系祖先。

2.MCTS四阶段详谈

2.1 选择阶段：

此阶段需要根据价值公式选出最大节点，显然这个价值公式，是MCTS算法的关键。2006年kocisis等人根据UCB提出了UCT公式（Upper Confidence Bound Apply To Tree），这一经典式子可以说是发展至今。严格的说，价值公式评估的是动作（边）而不是状态（节点），但对于不需要精通MCTS的人来说，动作和状态可以认为是一一对应的，即节点等同于边。接下来我会给出关于状态和动作的价值公式，初学者只需理解一个即可。

$S=\overline{S}+C\frac{\sqrt{lnN}}{N_{s}}$

其中，S(state)表示节点价值， $\overline{S}$ 表示该节点之前多次模拟的平均价值（比如可以是模拟赢的次数除以模拟次数），N是该节点的双亲节点的模拟次数， $N_{s}$ 是该节点的模拟次数（刚拓展的节点初始为0），C是一个超参数起到调节探索和利用的作用。

其中a表示动作，A(s)是在状态s下的所有可用动作的集合，Q(s,a)是动作a在状态s下运行至今的平均价值，N(s)是状态s至今的被访问次数，N(s,a)是动作a在状态s下的被访问次数。常数C控制探索和利用的平衡。

上图节点里，分子表示赢的次数，分母表示模拟次数，箭头旁的是根据UCT求出的值，其中C取根号2。

2.2 拓展阶段：

此阶段需要对选出的最大节点添加孩子，这要求选出的节点还可以添加孩子，即未完全拓展的节点。在一般的MCTS（不与其他方法结合）下添加孩子，只需从满足实际情况的多个动作中随机选一个即可。比如节点A可以拓展十个孩子，但目前只有一个，拓展A时只需从剩余9个随机选择即可。

2.3 模拟阶段：

这个阶段可以说是MCTS的精髓，不论是MCTS与其他方法结合产生的威力，还是相比以前方法的突破，关键在于这个阶段。不妨将此阶段，MCTS模拟游戏进行的策略叫模拟策略（不是官方术语），最初的MCTS使用的模拟策略是服从均匀分布的随机模拟。比如从节点A开始模拟，节点的可能策略有a,b,c。那么节点A选择a的概率是三分之一，选择a后生成的新节点选择a的概率也是三分之一。模拟过程的每个节点都采用统一的模拟策略——选择a/b/c的概率都是三分之一。

最后根据模拟对局的胜负判断节点A的好坏，这种根据多次随机试验逼近现实的思想即蒙特卡洛思想，起源于统计物理学，用来估计难以计算的积分。接下来，我会提出我仍在思考的问题抛砖引玉：

1. 如果决策树的宽度是较大的（一个节点可以有很多孩子），那么均匀的从多个孩子做出选择，是否浪费了时间在一些坏的动作上？由此引发的思考是，模拟策略可不可以动态调整，或者根据先验知识，建立一个不均匀的概率分布来加快模拟效率？

2. 如果决策树的深度很大，是否每次模拟都要进行到树的叶子才能算完成呢？如果加入了时间或者深度限制，那么如何评估此次模拟的“胜负”？比如模拟围棋，模拟到分出胜负的前几步，此时用什么指标表示此次模拟的胜负；如果模拟必须要分出胜负，有没有加快模拟的方法，或者说减少内存消耗的方法？毕竟模拟深度很大的话，对内存来说也是一个挑战。

2.4 反馈阶段：

根据模拟信息，将相应评价传回开始模拟的节点，及其所有直系祖先（他父亲，他爷爷，他太爷爷等）。比如模拟对局赢了，就把表示赢的数据传回去。设节点A模拟了10次，赢了6次，那么节点A的信息里有模拟次数：10，胜场：6，平均价值：0.6（设平均价值=胜场除以总场数）。

3. 日记1心得

虽然MCTS的使用至今已经近二十年了，但由于理论上没有做到定性定量的分析MCTS。目前MCTS还没有官方的、权威的定义和相关术语，之前所讨论到的也只是MCTS体系里最经典、最早的一种。它相比于已经定义了的方法来说，更像是一种技巧，利用随机试验近似目标的技巧。MCTS的四阶段也不总是泾渭分明，所以，如果你在学习MCTS时也感到有些困惑，不必担心。另外，MCTS后续会有一个更出名的使用技巧，即与神经网络的结合（AlphaGo）。日记2我会谈论，MCST的新伙伴以及新的前景。

你可能感兴趣的文献：

[1] 朱良双,王静文,李媛.基于UCT搜索算法的点格棋博弈系统研究[J].智能计算机与应用,2021,11(02):129-131.

下文的第三章

Sylvain Gelly, Levente Kocsis,. The grand challenge of computer Go: Monte Carlo tree search and extensions. Commun. ACM 55, 3 (March 2012), 106–113. https://doi.org/10.1145/2093548.2093574

参考文献：

1. Kocsis, L., Szepesvári, C. (2006). Bandit Based Monte-Carlo Planning. https://doi.org/10.1007/11871842_29

2. Rémi Coulom. Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search. 5th International Conference on Computer and Games, May 2006, Turin, Italy. ffinria-00116992f

3. 蒙特卡洛树搜索（Monte Carlo Tree Search）揭秘-CSDN博客 https://blog.csdn.net/fearlesslpp/article/details/134342648