蒙特卡洛搜索树

最新推荐文章于 2025-02-18 12:09:21 发布

lirunqi3

最新推荐文章于 2025-02-18 12:09:21 发布

阅读量1.7k

点赞数 2

分类专栏： RL

本文链接：https://blog.csdn.net/lirunqi3/article/details/112188990

版权

蒙特卡洛树搜索是一种在多选择任务中有效的算法，尤其适用于复杂游戏如井字棋、围棋等。该方法通过在搜索树中平衡探索与开发，利用随机模拟更新树结构，获取节点的真实价值。基本流程包括选择、拓展、模拟和更新四个步骤，无需评估中间状态，降低了对领域知识的需求。博弈论中的纳什均衡与蒙特卡洛方法相结合，能处理多个代理之间的决策问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于多选择任务时，采用蒙特卡洛搜索树是一个很好的选择。

推荐论文：A Survey of Monte Carlo Tree Search Methods

笔记和草稿先行协商，后期慢慢补充修改。

一、

蒙特卡洛树搜索从字面解释分为蒙特卡洛方法和树搜索。树搜索比较好理解，就是利用树形结构定位目标；蒙特卡罗方法则是以概率统计理论为指导的数值计算方法。是指使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。

最恰当的例子就是井字棋游戏，虽然一共有9个格子，但是对于井字游戏构建的游戏树也有一定规模。当对于围棋、象棋、麻将之类的游戏树，在复杂条件下构件游戏树时，采用穷举法已经无法实现的时候就可以尝试采用蒙特卡洛树搜索。

二、

蒙特卡洛树的过程主要是平衡exploration和exploiation。

原文：The basic MCTS process is conceptually very simple, as shown in Fig. 1 (from [17]). A tree is built in an incremental and asymmetric manner. For each iteration of the algorithm, a tree policy is used to find the most urgent node of the current tree. The tree policy attempts to balance considerations of exploration (look in areas that have not been well sampled yet) and exploitation (look in areas which appear to be promising). A simulation is then run from the

最低0.47元/天解锁文章