蒙特卡洛树搜索（MCTS）算法

最新推荐文章于 2023-11-14 21:02:49 发布

Shannon1997

最新推荐文章于 2023-11-14 21:02:49 发布

阅读量1.5k

点赞数

分类专栏：阅读文献

原文链接：https://blog.csdn.net/ljyt2/article/details/78332802

版权

阅读文献专栏收录该内容

2 篇文章 0 订阅

订阅专栏

转载自：https://blog.csdn.net/ljyt2/article/details/78332802

对Alpha-zero很感兴趣，所以耐心阅读了mastering the game of go without human knowledge
Deepmind 官网的介绍：AlphaGo Zero: Learning from scratch
在阅读的过程中，对蒙特卡洛树搜索算法不甚了解，下面翻译了youtube上一位英国教授的网络课程视频。
同时，我在CSDN资源中上传了自己研究AlphaGo的两篇文章后，写的两个版本的AlphaGo算法结构和MCTS结构的对比分析的文章，名为"AlphaGo VS AlphaGo Zero 对比分析讲解"，有兴趣的读者可以下载。
##蒙特卡洛树搜索（MCTS）算法
MCTS算法是一种决策算法，每次模拟（simulation）分为4步：

Tree traversal:
Node expansion
Rollout (random simulation)
Backpropagation

步骤1，2的流程图如下：

步骤3 Rollout 的细节：

Rollout(S_i):
	loop forever:
		if S_i is a terminal state:
			return value(S_i)
		A_i = random(available-actions(S_i))
		S_i = simulate(A_i,S_i)

讲一个具体的例子：

树的初始状态：
T 表示总的 value, N 表示被访问的次数（visit count）。A表示动作（action）.
第一次迭代（iteration）：

从状态S0开始，要在下面两个动作中进行选择（假设只有两个动作可选），选择的标准就是UCB1(Si)值。显然可算得：
这种情况下，我们就按顺序取第一个，即A1。从而，达到状态S1。

按照步骤1，2的流程图，我们现在需要判断目前的结点S1(current node)是不是叶节点，这里叶节点是指其没有被展开（expansion）过。显然，此结点没有被展开过，所以是叶节点。接下来，按照流程图，需要判断结点S1被访问的系数是否为0。是0，所以要进行Rollout。

Rollout其实就是在接下来的步骤中每一步都随机采取动作，直到停止点（围棋中的对局结束），得到一个最终的value。

假设Rollout最终值为20.

接下来，进行步骤4 Backpropagation，即利用Rollout最终得到的value来更新路径上每个结点的T,N值。

之后把Rollout的结果删除：

MCTS的想法就是要从S0出发不断的进行迭代，不断更新结点值，直到达到一定的迭代次数或者时间。

第二次迭代：

我们从S0出发进行第二次迭代（iteration）：

首先，计算下面两个结点S1,S2的 UCB1值：
UCB1(S1)=20 UCB1(S2)=∞
所以，选动作A2，从而达到状态S2。

同上，现在要判断结点S2是否是叶结点。是，所以继续判断其被访问的次数。是0，所以进入Rollout, 假设Rollout最终值为10.

之后进行Backpropogation:

第三次迭代：

首先，计算UCB1值：UCB1(S1)≈21.67 UCB1(S2)≈11.67

执行动作A1，进入状态S1。
是否是叶节点？是。
被访问次数是否为0？否。
按照流程图所示，现在进入Node expansion步骤。同样假设只有两个动作可选。

选择S3进行 Rollout，假设Rollout最终值为0.

更新路径上每个结点的值，之后删除Rollout的值：

第四次迭代：

首先，计算UCB1值：
选择A2，进入状态S2, 接下来和第三次迭代一样的步骤：

更新路径上的结点：

假设我们设定最大迭代次数为4，则我们的迭代完毕。这时，利用得到的树来决定在S0处应该选择哪个动作。根据UCB1值，显然我们要选择动作A2.