Chapter 5. Monte Carlo Methods

lh15123as

于 2019-09-04 23:56:08 发布

阅读量189

点赞数

分类专栏： RL 文章标签： RL

本文链接：https://blog.csdn.net/lh15123as/article/details/100546584

版权

RL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

5.1 Monte Carlo Prediction

初始化：
$\pi \leftarrow$ 需要估计的策略
$\leftarrow$ 随机的价值状态函数
$\leftarrow$ 一个空的列表，对所有 $\in S$
一直循环：
使用 $\pi$ 生成一个回合（episode）
对于回合中的每一个状态 $s$ ：
$\leftarrow$ $s$ 首次出现后的回报（return）
将 $G$ 添加到列表 $R e t u r n s (s)$ 中
$\leftarrow average (Returns(s))$

5.2 Monte Carlo Estimation of Action Values

5.3 Monte Carlo Control

探索开端的蒙特卡洛算法（Monte Carlo ES）
初始化，对所有的 $\in S, a \in A(s)$ :
$Q(s,a)\leftarrow$ 随机数
$\pi(s) \leftarrow$ 随机数
$\leftarrow$ 空表
一直循环：
选择状态 $S_0 \in S$ 和动作 $A_0 \in A(S_0)$ ，所有状态-动作对的概率大于0
从 $S_0, A_0$ 开始，遵循策略 $\pi$ ，生成一个回合
对于这个回合中的每个出现的 $s, a$ 对：
$G\leftarrow$ $s, a$ 对的回报（只计算首次出现的 $s, a$ 对）
将 $G$ 添加到 $R e t u r n s (s, a)$ 里
$\leftarrow average(Returns(s ,a))$
对于这个回合里的每个状态 $s$ ：
$\pi(s) \leftarrow arg \space \underset{a}{max} \space Q(s, a)$

5.4 Monte Carlo Control without Exploring Starts

在策略first-visit蒙特卡洛控制（对于 $\epsilon - soft$ 策略）
初始化，对所有的 $\in S, a \in A(s)$ ：
$\leftarrow$ 随机值
$\leftarrow$ 空表
$\pi(a|s) \leftarrow$ 一个随机的 $\epsilon - soft$ 策略
一直循环：
（a）使用策略 $\pi$ 生成一个回合
（b）对回合中出现的每个 $s, a$ 对：
$\leftarrow$ 回报（遵循 $s, a$ 对的首次出现原则）
将 $G$ 添加到表 $R e t u r n s (s, a)$ 中
$\leftarrow average(Returns(s ,a))$
（c）对回合中的每个 $s$ ：
$A^* \leftarrow arg \space \underset{a}{max} \space Q(s,a)$
对所有的 $\in A(s)$ ：
$\pi(a|s) \leftarrow \left\{ \begin{array}{rcl} 1 - \epsilon + \frac{\epsilon}{|A(s)|} & & if &a=A^* \\ \frac{\epsilon}{|A(s)|} & & if &a \neq A^* \end{array} \right.$

5.5 Off-policy Prediction via Importance Sampling

为了估计 $v_\pi(s)$ ，我们用重要性采样率来缩放回报，然后求平均：
$\doteq \frac{\sum_{t \in {J(s)}}\rho_t^{T(t)} G_t}{|{J(s)}|}.\tag{5.4}$
当重要性采样只是以上面的简单求平均的方式，我们称为原始重要性采样（ordinary importance sampling）。

另一个选择是加权重要性采样（weighted importance sampling），它使用了加权平均，定义为
$\doteq \frac{\sum_{t \in {J(s)}} \rho_t^{T(t)} G_t}{\sum_{t \in {J(s)}} \rho_t^{T(t)}}, \tag{5.5}$
假设分母为零，加权重要性采样也为零。

5.6 Incremental Implementation

增量式的离策略every-visit MC 策略评估
初始化，对所有 $\in \mathcal S, a \in \mathcal A(s)$ ：
$\leftarrow$ 随机值
$\leftarrow 0$
$\mu(a|s) \leftarrow$ 随机的软的行为策略
$\pi(a|s) \leftarrow$ 随机的目标策略
一直循环：
使用策略 $\mu$ 生成回合：
$S_0, A_0, R_1,...,S_{T-1},A_{T-1}, R_T, S_T$
$\leftarrow 0$
$\leftarrow 1$
$\quad t= T-1, T-2,... 0$ ：
$\leftarrow \gamma G + R_{t+1}$
$C(S_t,A_t) \leftarrow C(S_t,A_t) +W$
$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \frac{W}{C(S_t,A_t)}[G - Q(S_t,A_t)]$
$\leftarrow W \frac{\pi(A_t|S_t)}{\mu(A_t|S_t)}$
如果 $W = 0$ ，退出 $f o r$ 循环

5.7 Off-policy Monte Carlo Control

离策略every-visit MC 控制（返回 $\pi \approx \pi_*$ ）
初始化，对于所有的 $\in \mathcal S, a \in \mathcal A(s)$ ：
$\leftarrow$ 随机数
$\leftarrow0$
$\pi(s) \leftarrow$ 对 $Q$ 而言贪心的确定性策略
一直循环：
用任意soft策略 $\mu$ 生成一个回合：
$S_0, A_0, R_1,..., S_{T-1}, A_{T-1}, R_T, S_T$
$\leftarrow 0$
$\leftarrow 1$
$\quad t= T-1, T-2,... 0$ ：
$\leftarrow \gamma G + R_{t+1}$
$C(S_t,A_t) \leftarrow C(S_t,A_t) + W$
$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \frac{W}{C(S_t,A_t)} [G - Q(S_t,A_t)]$
$\pi(S_t) \leftarrow arg \space \underset{a}{max} \space Q(S_t,a)$
如果 $A_t \neq \pi(S_t)$ ，跳出 $f o r$ 循环
$\leftarrow W\frac{1}{\mu(A_t|S_t)}$