从AlphaGo 看 Monte Carlo Tree Search

最新推荐文章于 2024-03-03 14:32:00 发布

seahailang

最新推荐文章于 2024-03-03 14:32:00 发布

阅读量679

点赞数 1

分类专栏：深度学习文章标签：蒙特卡罗人工智能-神经网络算法强化学习

本文链接：https://blog.csdn.net/seahailang/article/details/78296817

版权

深度学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

1 Markov 决策过程

1.1 Markov 过程

简单介绍离散时间有限状态的Markov过程
一个离散时间有限状态随机过程可以表示为一个三元组 $\{T,S,P\}$
$T$ :指标集，可以简单的看为时间点
$S$ :状态集，所有可能出现的状态
$P$ : $S\times S \rightarrow \mathbb{[0,1]}$ 状态转移概率,表示从状态 $p_{ij} = P(s_i\rightarrow s_j)$
$\{X_0,X_1,X_2,..,X_n,...\}$ $X_n\in S,n>=0$ 是其状态序列.
如果 $P(X_n|X_{n-1},X_{n-2},...,X_0) = P(X_n|X_{n-1})$ 即转移概率只与上一个状态有关
那么这个随机过程就被叫做Markov过程.
一般研究的情况还会要求这个Markov过程是时齐的.
即 $P(X_t=s_i|X_{t-1}=s_j)=P(X_m=s_i|X_m-1=s_j)$

1.2 Markov决策过程

Markov决策过程可以由一个五元组表示 $\{T,S,A,P,R\}$
$T$ :指标集,也可以看为时间
$S$ :状态集
$A$ :动作集,所有可能改变状态的动作
$P$ : $S\times A\times S\rightarrow \mathbb{[0,1]}$ , 指在状态 $s_i下$ 采取行动a转移到状态 $s_j$ 下的概率
$R$ : $S\times A\rightarrow \mathbb{R}$ : 状态s下采取行动a的奖励,也有简单的模型奖励只与状态有关系.wikipedia上奖励函数也把下一个状态作为参数,即状态 $s_i$ 下采取行动 $a$ 到达状态 $s_j$ 的奖励
也有定义了阻尼系数 $\gamma$
$\gamma \in (0,1]$ : 状态的重要性随时间的衰减指数.

同样的,Markov 决策过程也要求Markov性,即要求转移概率只与上一个状态有关.
这里写图片描述

决策可以被定义为 $\pi: S\rightarrow A$ 或则 $\pi :S\times A^k \rightarrow \mathbb{R}$ 即,根据状态s采取某个行动或则依概率采取一系列行动.

2 Mento Carlo评估

以围棋落子为例.
给定一个当前局面,算法在当前局面所有可能落点的位置随机选择一个点落子,并不断的重复这个过程直至游戏结束,以游戏结束时的胜负作为当前局势的评估.
在随机选点时,策略也可以被加入进来,这样可以计算到当前局面在当前策略下的评估.

3 Mento Carlo树搜索

Mento Carlo Tree Search分为4个部分
1. 选举:根据当前的信息以某种选择策略选择一个子节点
2. 扩展:当前信息不足时选择一个没有访问过的节点
3. 模拟:对扩展出来的节点进行模拟评估
4. 回溯: 向上更新节点的评估值

同样以围棋为例,当前状态确定时,棋手通常有k个点可以选择落子,这样就会造成k个局面作为当前局面的子节点. 对于这k个局面中的每个局面i, 记录了两个量 $(n_i,w_i)$
$n_i$ 是这个局面被访问的次数, $w_i$ 是当前的这个局面的评估值.

如果第i个状态没有被访问过,那么将这个局面加入到搜索树上,计数 $n_i$ 的加一,并采用Mento Carlo评估,值为 $\Delta$ , $w_i=w_i+\Delta$ (胜则为正,负则为负).向上回溯,将访问到的节点访问次数加一,并更新其增益.
如果局面i不是第一次出现,那么则以该局面为根节点,进行一次树构建.