蒙特卡洛方法（Monte Carlo）【强化学习】

格兰芬多_未名

已于 2024-04-27 15:19:53 修改

阅读量1.1k

点赞数 19

分类专栏：强化学习文章标签：强化学习蒙特卡洛方法

于 2024-04-10 14:36:57 首次发布

本文链接：https://blog.csdn.net/v20000727/article/details/137596033

版权

强化学习专栏收录该内容

12 篇文章 8 订阅

订阅专栏

本文介绍了强化学习的基本概念，重点探讨了模型免费方法中的MonteCarlo算法，包括Motivatingexample（动机实例）中的MontyHall问题，以及如何通过MonteCarlo预测和策略改进来估计值函数。此外，还介绍了ε-greedy策略在策略迭代中的应用，尤其是在episodic任务中的表现和其在Cartpole等实例中的运用。

摘要由CSDN通过智能技术生成

强化学习笔记

主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程，个人觉得赵老师的课件深入浅出，很适合入门.

第一章强化学习基本概念
 第二章贝尔曼方程
 第三章贝尔曼最优方程
 第四章值迭代和策略迭代
 第五章强化学习实践—GridWorld
第六章蒙特卡洛方法

前面介绍的值迭代和策略迭代算法，我们都假设模型已知，也就是环境的动态特性（比如各种概率）我们都预先知道。然而在实际问题中，我们可能对环境的动态特性并不是那么清楚，但是我们可以得到足够多的数据，那么我们同样可以用强化学习来建模解决这个问题，这类不利用模型的算法被称为Model-free的方法。Monte Carlo方法便是一种Model-free的方法。

一、Motivating example

下面我们通过一个例子对Model-free有一个更加直观的了解，以及Monte Carlo方法是怎么做的，这个例子是概率论中的典型例子——Monty Hall Problem.

Suppose you’re on a game show, and you’re given the choice of three doors: Behind one door is a car; behind the others, goats. You pick a door, say No. 1, and the host, who knows what’s behind the other doors, opens another door, say No. 3, which has a goat. He then says to you, ‘Do you want to pick door No. 2?’ Is it to your advantage to take the switch?

由概率论的基本知识我们可以算出每种情况的概率如下：

不改变选择，选中car的概率为 $p=\frac13$ ；
改变选择，选中car的概率 $p=\frac23$ .

如果我们不能通过理论知识得到这个概率，能不能通过做实验来得到这个结果呢？这就是Monte Carlo要做的事，我们可以通过python编程来模拟这个游戏：

import numpy as np
import matplotlib.pyplot as plt

def game(switch):
    
    doors = [0, 0, 1]  # 0代表山羊，1代表汽车
    np.random.shuffle(doors)
    
    # 参赛者初始选择一扇门
    choice = np.random.randint(3)
    
    # 主持人打开一扇有山羊的门
    reveal = np.random.choice([i for i in range(3) if i != choice and doors[i] == 0])
    
    if switch:
        new_choice = [i for i in range(3) if i != choice and i != reveal][0]
        return doors[new_choice]  # 返回参赛者的奖励结果，1代表获得汽车，0代表获得山羊
    else:
        return doors[choice]

# 模拟实验
num_trials = 2000
switch_rewards = []     # 记录每次选择换门后的奖励
no_switch_rewards = []  # 记录每次选择坚持原先选择的奖励
switch_wins = 0     # 记录换门策略的获胜次数
no_switch_wins = 0  # 记录坚持原先选择的获胜次数

for i in range(num_trials):
    # 选择换门
    switch_result = game(switch=True)
    switch_rewards.append(switch_result)
    if switch_result == 1:
        switch_wins += 1
    
    # 选择坚持原先选择的门
    no_switch_result = game(switch=False)
    no_switch_rewards.append(no_switch_result)
    if no_switch_result == 1:
        no_switch_wins += 1

# 计算每次试验的平均奖励
switch_avg_rewards = np.cumsum(switch_rewards) / (np.arange(num_trials) + 1)
no_switch_avg_rewards = np.cumsum(no_switch_rewards) / (np.arange(num_trials) + 1)

# 绘制平均奖励曲线
plt.figure(dpi=150)
plt.plot(np.arange(num_trials), switch_avg_rewards, label='换门')
plt.plot(np.arange(num_trials), no_switch_avg_rewards, label='坚持原先选择')
plt.xlabel('试验次数')
plt.ylabel('平均奖励')
plt.title('2000次试验中的平均奖励')
plt.legend()
plt.show()

# 输出获胜概率
switch_win_percentage = switch_wins / num_trials
no_switch_win_percentage = no_switch_wins / num_trials
print("选择换门的获胜概率:", switch_win_percentage)
print("选择坚持原先选择的获胜概率:", no_switch_win_percentage)

结果如下：

output

我们可以看到，随着实验次数的增加，换门的平均奖励更大，并且趋于一个稳定值，其实本质就是用样本均值来估计期望，我们知道该问题的期望：
$\mathbb{E}[x]=1\times p_1+0\times p_2$ 其中 $p_1$ 是选中car的概率， $p_2$ 是选中山羊的概率。如果我们不知道准确的概率，我们用的办法就是:
$\mu=\frac{x_1+x_2+\cdots+x_n}{n}$ 用样本均值来近似期望，这有大数定理进行理论保证，我们知道当 $n\to\infty$ 时， $\mu\to\mathbb{E}[x]$ .通过这个例子我们可以看到即使我们不知道模型的某些性质（这里是p），但我们可以通过Monte Carlo的方法来得到近似值.

截屏2024-04-09 17.03.00

二、Monte Carlo Prediction

我们回顾一下Policy iteration 的核心算法步骤：
$\left\{\begin{array}{l}\text{Policy evaluation: }v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}\\\text{Policy improvement: }\pi_{k+1}=\arg\max_{\pi}(r_{\pi}+\gamma P_{\pi}v_{\pi_k})\end{array}\right.$ 从上面的表达式我们可以看到，无论是算 $v$ 还是 $q$ 都需要准确地知道模型的概率 $p (s^{'} ∣ s, a)$ 以及 $r$ ，但在Model-free算法里我们不知道准确的 $p$ 或者 $r$ ，但是我们可以用Monte Carlo的方法直接估计给定策略 $\pi$ 下的 $v (s)$ 或者 $q (s, a)$ 。这里我们先讨论 $v (s)$ 的估计， $q (s, a)$ 的估计是类似的。

其核心思想就是，通过实验得到很多 $v (s)$ 的数据，然后用均值作为其准确值的估计.为了确保累积回报是有限的，我们这里仅讨论episodic任务。我们可以通过实验获得很多个episode的数据，然后根据这些数据来估计 $v (s)$ ，进一步能改进策略.回顾 $v (s)$ 的定义
$v(s)=\mathbb{E}[G_t|s].$ 也就是说我们要估计在每个状态 $s$ 下累积回报的期望，由前面的例子我们知道可以用样本均值来估计期望，假设 $g_1,g_2,\cdots,g_n$ 是实验中得到的n个关于 $s$ 的累积回报的样本，那么我们知道
$v(s)=\frac{g_1+g_2+\cdots+g_n}{n}$ 是 $G_t$ 的一个无偏估计。比如某个episode得到的序列如下：
$S_1,A_1,R_1,S_2,A_2,R_2,S_1,A_1,R_3,S_3,A_2,R_4.$ 我们发现 $S_2$ 值出现了一次那么 $g(S_2)=R_4+\gamma R_3+\gamma^2 R_2$ ,这个episode里面 $S_1$ 出现了两次，那应该 $g(S_1)$ 怎么计算呢？有两种方法：

first-visit method：每个episode的数据只记录每个s第一次出现的值
比如： $S_1,A_1,R_1,S_2,A_2,R_2,S_1,A_1,R_3,S_3,A_2,R_4$
对于 $S_1$ 我们只记录第一次出现时的 $g(S_1)=R_4+\gamma R_3+\gamma^2 R_2+\gamma^3R_1$ .
every-visit method:每个episode的数据每个(s,a)出现的值都记录
比如上面的例子，我们还会记录第二次( $S_1$ )出现时的 $g(S_1)=R_4+\gamma R_3$ .

两种方法都能收敛到准确的期望值，这里我们仅关注first-visit method，下面给出完整的伪代码，值得注意的是，我们可以从后往前计算 $G$ :

截屏2024-04-24 16.34.24

关于 $q (s, a)$ 的估计是类似的，只不过将对s的估计改为对每个 $(s, a)$ 进行估计。

三、MC Exploring Starts

显然在策略迭代算法中，直接估计 $q (s, a)$ 更好，因为在policy improvement步骤我们需要的是 $q (s, a)$ ，所以与传统的策略迭代算法相比，Monte Carlo方法只有policy evaluation步骤不同，下面给出蒙特卡洛方法下的策略迭代算法：

截屏2024-04-24 17.06.09

Note:

要确保所有 $(s, a)$ 都被计算到，Exploring Starts意味着我们需要从每个 $(s, a)$ 对开始生成足够多的episode.
在实践中，该算法很难实现的。对于许多应用，特别是那些涉及与环境的物理交互的应用，很难从每个state-action pair作为起始点得到一段episode.
因此，理论和实践之间存在差距。我们可以去掉Exploring Starts的假设吗?答案是肯定的，可以通过使用soft policy来实现这一点。

四、MC without exploring starts

Soft Policy

如果一个策略 $\pi$ 采取任何行动的概率为正，则称为soft policy.

在soft policy下，一些足够长的episodes中可能就会包含每个状态-动作对足够多次;
然后，我们不需要从每个状态-动作对开始采集大量episodes.

下面介绍一种soft policy— $\varepsilon$ -greedy策略：
$\pi(a \mid s)= \begin{cases}1-\frac{\varepsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)|-1), & \text { for the greedy action, } \\ \frac{\varepsilon}{|\mathcal{A}(s)|}, & \text { for the other }|\mathcal{A}(s)|-1 \text { actions. }\end{cases}$
其中 $\varepsilon \in[0,1]$ 和 $|\mathcal{A}(s)|$ 是 $s$ 的总数。

选择贪婪行动的机会总是大于其他行动，因为 $1-\frac{\varepsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)|-1)=1-\varepsilon+\frac{\varepsilon}{|\mathcal{A}(s)|} \geq \frac{\varepsilon}{|\mathcal{A}(s)|}$ 。
为什么使用 $\varepsilon$ -greedy?Balance between exploitation and exploration
- 当 $\varepsilon=0$ ，它变得贪婪! Less exploration but more exploitation.
- 当 $\varepsilon=1$ 时，它成为均匀分布。More exploration but less exploitation.

如何将 $\varepsilon$ -greedy嵌入到策略迭代算法中?现在，将策略改进步骤改为:
$\pi_{k+1}(s)=\arg \max _{\pi \in \Pi_{\varepsilon}} \sum_a \pi(a \mid s) q_{\pi_k}(s, a),$
其中 $\Pi_{\varepsilon}$ 表示所有 $\varepsilon$ -greedy策略的集合，其固定值为 $\varepsilon$ 。这里的最佳策略是
$\pi_{k+1}(a \mid s)= \begin{cases}1-\frac{|\mathcal{A}(s)|-1}{|\mathcal{A}(s)|} \varepsilon, & a=a_k^*, \\ \frac{1}{|\mathcal{A}(s)|} \varepsilon, & a \neq a_k^* .\end{cases}$

MC $\varepsilon$ -greedy与MC Exploring Starts相同，只是前者使用 $\varepsilon$ -greedy策略。
它不需要从每个(s,a)出发开始得到episode，但仍然需要以不同的形式访问所有状态-动作对。

算法伪代码如下图所示：

截屏2024-04-24 17.09.17
在强化学习实例分析:Cartpole【Monte Carlo】中，我们实现了这个算法，可以明显看到这个算法的缺点——每次更新需要等到每个episode结束，所以也只适用于episodic任务。

五、参考资料

Zhao, S… Mathematical Foundations of Reinforcement Learning. Springer Nature Press and Tsinghua University Press.
Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.

格兰芬多_未名

关注

19
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
蒙特卡洛方法（Monte Carlo）【强化学习】

前面介绍的值迭代和策略迭代算法，我们都假设模型已知，也就是环境的动态特性（比如各种概率）我们都预先知道。然而在实际问题中，我们可能对环境的动态特性并不是那么清楚，但是我们可以得到足够多的数据，那么我们同样可以用强化学习来建模解决这个问题，这类不利用模型的算法被称为`Model-free`的方法。`Monte Carlo`方法便是一种`Model-free`的方法。
复制链接

扫一扫

专栏目录