蒙特卡洛树搜索的主要流程有哪些_蒙特卡洛树搜索简介

蒙特卡洛树搜索(MCTS)是一种在人工智能中用于决策的方法,尤其在组合博弈中。基本算法包括选择、扩展、模拟和反向传播四个步骤。MCTS利用UCB公式平衡探索与利用,适用于复杂博弈游戏,如围棋。尽管有收敛速度慢和在某些情况下可能找不到最优解的缺点,但通过领域知识和领域独立强化技术可以提高性能。MCTS已成为AI领域的热门研究话题。
摘要由CSDN通过智能技术生成

什么是 MCTS?

全称 Monte Carlo Tree Search,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(move)规划形式。它结合了随机模拟的一般性和树搜索的准确性。

MCTS 受到快速关注主要是由计算机围棋程序的成功以及其潜在的在众多难题上的应用所致。超越博弈游戏本身,MCTS 理论上可以被用在以 {状态 state,行动 action} 对定义和用模拟进行预测输出结果的任何领域。

基本算法

基本的 MCTS 算法非常简单:根据模拟的输出结果,按照节点构造搜索树。其过程可以分为下面的若干步:

搜索树的构建过程

选择 Selection:从根节点 R 开始,递归选择最优的子节点(后面会解释)直到达到叶子节点 L。扩展 Expansion:如果 L 不是一个终止节点(也就是,不会导致博弈游戏终止)那么就创建一个或者更多的字子节点,选择其中一个 C。

模拟 Simulation:从 C 开始运行一个模拟的输出,直到博弈游戏结束。

反向传播 Backpropagation:用模拟的结果输出更新当前行动序列。

参看Tutorial了解关于这个过程更多的信息。

每个节点并需包含两个重要的信息:一个是根据模拟结果估计的值和该节点已经被访问的次数。

按照最为简单和最节约内存的实现,MCTS 将在每个迭代过程中增加一个子节点。不过,要注意其实根据不同的应用这里也可以在每个迭代过程中增加超过一个子节点。

节点选择

Bandits 和 UCB

在树向下遍历时的节点选择通过选择最大化某个量来实现ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值