蒙特卡洛树搜索_8.11 蒙特卡洛树搜索

本文介绍了蒙特卡洛树搜索(MCTS)的概念,它是一个决策时规划算法和rollout算法的结合。MCTS通过迭代过程,选择、扩张、仿真和备份四个步骤来优化路径选择,聚焦于高回报轨迹的扩展。MCTS在AlphaGo中发挥了关键作用,结合MC评估和深度学习,有效地利用计算资源进行探索。其有效性源于在线、增量式更新以及利用历史回报指导后续仿真。
摘要由CSDN通过智能技术生成

我想蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)突然为人所知还是得益于DeepMind的AlphaGo。一瞬间,关于解析AlphaGo背后技术的文章大量涌现,其中的一个核心技术就是本节MCTS的一个扩展。本节我们基于前面的知识,来看看MCTS究竟是什么?

首先,我们给MCTS下两个定义。第一,MCTS是一个决策时规划算法;第二,MCTS是一个rollout算法。不同之处在于MCTS中会部分的保存值函数,从而能够指导仿真产生更高回报值的轨迹。

MCTS

在MCTS中,每当我们遇到一个新的状态,需要选择动作时,就会执行MCTS(决策时规划)。每一个MCTS更新过程都是一个迭代过程。这个迭代过程会仿真很多从当前状态开始直到终止态的轨迹(rollout)。MCTS的核心思想是专注于哪些获得高的评估回报的仿真,并且基于先前的高回报仿真轨迹不断的往外扩展,产生新的仿真经验。

MCTS工作机理

在MCTS中,重要的过程也是采样轨迹,然后基于采样轨迹利用MC方法估计值函数。它的特殊之处在于如何采样轨迹和进行值备份。总结起来可以分为四步,如下图所示:

8edb64215933ae9c37c5d3d6e07e76e2.png
蒙特卡洛树搜索
  • 选择。在一个根节点上(当前状态&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值