蒙特卡洛搜索树

蒙特卡洛树搜索是一种在多选择任务中有效的算法,尤其适用于复杂游戏如井字棋、围棋等。该方法通过在搜索树中平衡探索与开发,利用随机模拟更新树结构,获取节点的真实价值。基本流程包括选择、拓展、模拟和更新四个步骤,无需评估中间状态,降低了对领域知识的需求。博弈论中的纳什均衡与蒙特卡洛方法相结合,能处理多个代理之间的决策问题。
摘要由CSDN通过智能技术生成

对于多选择任务时,采用蒙特卡洛搜索树是一个很好的选择。

推荐论文:A Survey of Monte Carlo Tree Search Methods

笔记和草稿先行协商,后期慢慢补充修改。

一、

蒙特卡洛树搜索从字面解释分为蒙特卡洛方法和树搜索。树搜索比较好理解,就是利用树形结构定位目标;蒙特卡罗方法则是以概率统计理论为指导的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。

最恰当的例子就是井字棋游戏,虽然一共有9个格子,但是对于井字游戏构建的游戏树也有一定规模。当对于围棋、象棋、麻将之类的游戏树,在复杂条件下构件游戏树时,采用穷举法已经无法实现的时候就可以尝试采用蒙特卡洛树搜索。

 

二、

蒙特卡洛树的过程主要是平衡exploration和exploiation。

原文:The basic MCTS process is conceptually very simple, as shown in Fig. 1 (from [17]). A tree is built in an incremental and asymmetric manner. For each iteration of the algorithm, a tree policy is used to find the most urgent node of the current tree. The tree policy attempts to balance considerations of exploration (look in areas that have not been well sampled yet) and exploitation (look in areas which appear to be promising). A simulation is then run from the

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值