蒙特卡洛方法(Monte Carlo)【强化学习】

本文介绍了强化学习的基本概念,重点探讨了模型免费方法中的MonteCarlo算法,包括Motivatingexample(动机实例)中的MontyHall问题,以及如何通过MonteCarlo预测和策略改进来估计值函数。此外,还介绍了ε-greedy策略在策略迭代中的应用,尤其是在episodic任务中的表现和其在Cartpole等实例中的运用。
摘要由CSDN通过智能技术生成

强化学习笔记

主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程,个人觉得赵老师的课件深入浅出,很适合入门.

第一章 强化学习基本概念
第二章 贝尔曼方程
第三章 贝尔曼最优方程
第四章 值迭代和策略迭代
第五章 强化学习实践—GridWorld
第六章 蒙特卡洛方法



前面介绍的值迭代和策略迭代算法,我们都假设模型已知,也就是环境的动态特性(比如各种概率)我们都预先知道。然而在实际问题中,我们可能对环境的动态特性并不是那么清楚,但是我们可以得到足够多的数据,那么我们同样可以用强化学习来建模解决这个问题,这类不利用模型的算法被称为Model-free的方法。Monte Carlo方法便是一种Model-free的方法。

一、Motivating example

下面我们通过一个例子对Model-free有一个更加直观的了解,以及Monte Carlo方法是怎么做的,这个例子是概率论中的典型例子——Monty Hall Problem.

Suppose you’re on a game show, and you’re given the choice of three doors: Behind one door is a car; behind the others, goats. You pick a door, say No. 1, and the host, who knows what’s behind the other doors, opens another door, say No. 3, which has a goat. He then says to you, ‘Do you want to pick door No. 2?’ Is it to your advantage to take the switch?

由概率论的基本知识我们可以算出每种情况的概率如下:

  1. 不改变选择,选中car的概率为 p = 1 3 p=\frac13 p=31
  2. 改变选择,选中car的概率 p = 2 3 p=\frac23 p=32.

如果我们不能通过理论知识得到这个概率,能不能通过做实验来得到这个结果呢?这就是Monte Carlo要做的事,我们可以通过python编程来模拟这个游戏:

import numpy as np
import matplotlib.pyplot as plt

def game(switch):
    
    doors = [0, 0, 1]  # 0代表山羊,1代表汽车
    np.random.shuffle(doors)
    
    # 参赛者初始选择一扇门
    choice = np.random.randint(3)
    
    # 主持人打开一扇有山羊的门
    reveal = np.random.choice([i for i in range(3) if i != choice and doors[i] == 0])
    
    if switch:
        new_choice = [i for i in range(3) if i != choice and i != reveal][0]
        return doors[new_choice]  # 返回参赛者的奖励结果,1代表获得汽车,0代表获得山羊
    else:
        return doors[choice]

# 模拟实验
num_trials = 2000
switch_rewards = []     # 记录每次选择换门后的奖励
no_switch_rewards = []  # 记录每次选择坚持原先选择的奖励
switch_wins = 0     # 记录换门策略的获胜次数
no_switch_wins = 0  # 记录坚持原先选择的获胜次数

for i in range(num_trials):
    # 选择换门
    switch_result = game(switch=True)
    switch_rewards.append(switch_result)
    if switch_result == 1:
        switch_wins += 1
    
    # 选择坚持原先选择的门
    no_switch_result = game(switch=False)
    no_switch_rewards.append(no_switch_result)
    if no_switch_result == 1:
        no_switch_wins += 1

# 计算每次试验的平均奖励
switch_avg_rewards = np.cumsum(switch_rewards) / (np.arange(num_trials) + 1)
no_switch_avg_rewards = np.cumsum(no_switch_rewards) / (np.arange(num_trials) + 1)

# 绘制平均奖励曲线
plt.figure(dpi=150)
plt.plot(np.arange(num_trials), switch_avg_rewards, label='换门')
plt.plot(np.arange(num_trials), no_switch_avg_rewards, label='坚持原先选择')
plt.xlabel('试验次数')
plt.ylabel('平均奖励')
plt.title('2000次试验中的平均奖励')
plt.legend()
plt.show()

# 输出获胜概率
switch_win_percentage = switch_wins / num_trials
no_switch_win_percentage = no_switch_wins / num_trials
print("选择换门的获胜概率:", switch_win_percentage)
print("选择坚持原先选择的获胜概率:", no_switch_win_percentage)

结果如下:

output

我们可以看到,随着实验次数的增加,换门的平均奖励更大,并且趋于一个稳定值,其实本质就是用样本均值来估计期望,我们知道该问题的期望:
E [ x ] = 1 × p 1 + 0 × p 2 \mathbb{E}[x]=1\times p_1+0\times p_2 E[x]=1×p1+0×p2其中 p 1 p_1 p1是选中car的概率, p 2 p_2 p2是选中山羊的概率。如果我们不知道准确的概率,我们用的办法就是:
μ = x 1 + x 2 + ⋯ + x n n \mu=\frac{x_1+x_2+\cdots+x_n}{n} μ=nx1+x2++xn用样本均值来近似期望,这有大数定理进行理论保证,我们知道当 n → ∞ n\to\infty n时, μ → E [ x ] \mu\to\mathbb{E}[x] μE[x].通过这个例子我们可以看到即使我们不知道模型的某些性质(这里是p),但我们可以通过Monte Carlo的方法来得到近似值.

截屏2024-04-09 17.03.00

二、Monte Carlo Prediction

我们回顾一下Policy iteration 的核心算法步骤:
{ Policy evaluation:  v π k = r π k + γ P π k v π k Policy improvement:  π k + 1 = arg ⁡ max ⁡ π ( r π + γ P π v π k ) \left\{\begin{array}{l}\text{Policy evaluation: }v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}\\\text{Policy improvement: }\pi_{k+1}=\arg\max_{\pi}(r_{\pi}+\gamma P_{\pi}v_{\pi_k})\end{array}\right. {Policy evaluation: vπk=rπk+γPπkvπkPolicy improvement: πk+1=argmaxπ(rπ+γPπvπk)从上面的表达式我们可以看到,无论是算 v v v还是 q q q都需要准确地知道模型的概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)以及 r r r,但在Model-free算法里我们不知道准确的 p p p或者 r r r,但是我们可以用Monte Carlo的方法直接估计给定策略 π \pi π下的 v ( s ) v(s) v(s)或者 q ( s , a ) q(s,a) q(s,a)。这里我们先讨论 v ( s ) v(s) v(s)的估计, q ( s , a ) q(s,a) q(s,a)的估计是类似的。

其核心思想就是,通过实验得到很多 v ( s ) v(s) v(s)的数据,然后用均值作为其准确值的估计.为了确保累积回报是有限的,我们这里仅讨论episodic任务。我们可以通过实验获得很多个episode的数据,然后根据这些数据来估计 v ( s ) v(s) v(s),进一步能改进策略.回顾 v ( s ) v(s) v(s)的定义
v ( s ) = E [ G t ∣ s ] . v(s)=\mathbb{E}[G_t|s]. v(s)=E[Gts].也就是说我们要估计在每个状态 s s s下累积回报的期望,由前面的例子我们知道可以用样本均值来估计期望,假设 g 1 , g 2 , ⋯   , g n g_1,g_2,\cdots,g_n g1,g2,,gn是实验中得到的n个关于 s s s的累积回报的样本,那么我们知道
v ( s ) = g 1 + g 2 + ⋯ + g n n v(s)=\frac{g_1+g_2+\cdots+g_n}{n} v(s)=ng1+g2++gn G t G_t Gt的一个无偏估计。比如某个episode得到的序列如下:
S 1 , A 1 , R 1 , S 2 , A 2 , R 2 , S 1 , A 1 , R 3 , S 3 , A 2 , R 4 . S_1,A_1,R_1,S_2,A_2,R_2,S_1,A_1,R_3,S_3,A_2,R_4. S1,A1,R1,S2,A2,R2,S1,A1,R3,S3,A2,R4.我们发现 S 2 S_2 S2值出现了一次那么 g ( S 2 ) = R 4 + γ R 3 + γ 2 R 2 g(S_2)=R_4+\gamma R_3+\gamma^2 R_2 g(S2)=R4+γR3+γ2R2,这个episode里面 S 1 S_1 S1出现了两次,那应该 g ( S 1 ) g(S_1) g(S1)怎么计算呢?有两种方法:

  • first-visit method:每个episode的数据只记录每个s第一次出现的值
    比如: S 1 , A 1 , R 1 , S 2 , A 2 , R 2 , S 1 , A 1 , R 3 , S 3 , A 2 , R 4 S_1,A_1,R_1,S_2,A_2,R_2,S_1,A_1,R_3,S_3,A_2,R_4 S1,A1,R1,S2,A2,R2,S1,A1,R3,S3,A2,R4
    对于 S 1 S_1 S1我们只记录第一次出现时的 g ( S 1 ) = R 4 + γ R 3 + γ 2 R 2 + γ 3 R 1 g(S_1)=R_4+\gamma R_3+\gamma^2 R_2+\gamma^3R_1 g(S1)=R4+γR3+γ2R2+γ3R1.
  • every-visit method:每个episode的数据每个(s,a)出现的值都记录
    比如上面的例子,我们还会记录第二次( S 1 S_1 S1)出现时的 g ( S 1 ) = R 4 + γ R 3 g(S_1)=R_4+\gamma R_3 g(S1)=R4+γR3.

两种方法都能收敛到准确的期望值,这里我们仅关注first-visit method,下面给出完整的伪代码,值得注意的是,我们可以从后往前计算 G G G:

截屏2024-04-24 16.34.24

关于 q ( s , a ) q(s,a) q(s,a)的估计是类似的,只不过将对s的估计改为对每个 ( s , a ) (s,a) (s,a)进行估计。

三、MC Exploring Starts

显然在策略迭代算法中,直接估计 q ( s , a ) q(s,a) q(s,a)更好,因为在policy improvement步骤我们需要的是 q ( s , a ) q(s,a) q(s,a),所以与传统的策略迭代算法相比,Monte Carlo方法只有policy evaluation步骤不同,下面给出蒙特卡洛方法下的策略迭代算法:

截屏2024-04-24 17.06.09

Note:

  1. 要确保所有 ( s , a ) (s,a) (s,a)都被计算到,Exploring Starts意味着我们需要从每个 ( s , a ) (s,a) (s,a)对开始生成足够多的episode.
  2. 在实践中,该算法很难实现的。对于许多应用,特别是那些涉及与环境的物理交互的应用,很难从每个state-action pair作为起始点得到一段episode.
  3. 因此,理论和实践之间存在差距。我们可以去掉Exploring Starts的假设吗?答案是肯定的,可以通过使用soft policy来实现这一点。

四、MC without exploring starts

Soft Policy

如果一个策略 π \pi π采取任何行动的概率为正,则称为soft policy.

  • 在soft policy下,一些足够长的episodes中可能就会包含每个状态-动作对足够多次;
  • 然后,我们不需要从每个状态-动作对开始采集大量episodes.

下面介绍一种soft policy— ε \varepsilon ε -greedy策略:
π ( a ∣ s ) = { 1 − ε ∣ A ( s ) ∣ ( ∣ A ( s ) ∣ − 1 ) ,  for the greedy action,  ε ∣ A ( s ) ∣ ,  for the other  ∣ A ( s ) ∣ − 1  actions.  \pi(a \mid s)= \begin{cases}1-\frac{\varepsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)|-1), & \text { for the greedy action, } \\ \frac{\varepsilon}{|\mathcal{A}(s)|}, & \text { for the other }|\mathcal{A}(s)|-1 \text { actions. }\end{cases} π(as)={1A(s)ε(A(s)1),A(s)ε, for the greedy action,  for the other A(s)1 actions. 
其中 ε ∈ [ 0 , 1 ] \varepsilon \in[0,1] ε[0,1] ∣ A ( s ) ∣ |\mathcal{A}(s)| A(s) s s s的总数。

  • 选择贪婪行动的机会总是大于其他行动,因为 1 − ε ∣ A ( s ) ∣ ( ∣ A ( s ) ∣ − 1 ) = 1 − ε + ε ∣ A ( s ) ∣ ≥ ε ∣ A ( s ) ∣ 1-\frac{\varepsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)|-1)=1-\varepsilon+\frac{\varepsilon}{|\mathcal{A}(s)|} \geq \frac{\varepsilon}{|\mathcal{A}(s)|} 1A(s)ε(A(s)1)=1ε+A(s)εA(s)ε
  • 为什么使用 ε \varepsilon ε -greedy?Balance between exploitation and exploration
    • ε = 0 \varepsilon=0 ε=0​,它变得贪婪! Less exploration but more exploitation.
    • ε = 1 \varepsilon=1 ε=1时,它成为均匀分布。More exploration but less exploitation.

如何将 ε \varepsilon ε -greedy嵌入到策略迭代算法中?现在,将策略改进步骤改为:
π k + 1 ( s ) = arg ⁡ max ⁡ π ∈ Π ε ∑ a π ( a ∣ s ) q π k ( s , a ) , \pi_{k+1}(s)=\arg \max _{\pi \in \Pi_{\varepsilon}} \sum_a \pi(a \mid s) q_{\pi_k}(s, a), πk+1(s)=argπΠεmaxaπ(as)qπk(s,a),
其中 Π ε \Pi_{\varepsilon} Πε表示所有 ε \varepsilon ε -greedy策略的集合,其固定值为 ε \varepsilon ε。这里的最佳策略是
π k + 1 ( a ∣ s ) = { 1 − ∣ A ( s ) ∣ − 1 ∣ A ( s ) ∣ ε , a = a k ∗ , 1 ∣ A ( s ) ∣ ε , a ≠ a k ∗ . \pi_{k+1}(a \mid s)= \begin{cases}1-\frac{|\mathcal{A}(s)|-1}{|\mathcal{A}(s)|} \varepsilon, & a=a_k^*, \\ \frac{1}{|\mathcal{A}(s)|} \varepsilon, & a \neq a_k^* .\end{cases} πk+1(as)={1A(s)A(s)1ε,A(s)1ε,a=ak,a=ak.

  • MC ε \varepsilon ε -greedy与MC Exploring Starts相同,只是前者使用 ε \varepsilon ε -greedy策略。
  • 它不需要从每个(s,a)出发开始得到episode,但仍然需要以不同的形式访问所有状态-动作对

算法伪代码如下图所示:

截屏2024-04-24 17.09.17
强化学习实例分析:Cartpole【Monte Carlo】中,我们实现了这个算法,可以明显看到这个算法的缺点——每次更新需要等到每个episode结束,所以也只适用于episodic任务

五、参考资料

  1. Zhao, S… Mathematical Foundations of Reinforcement Learning. Springer Nature Press and Tsinghua University Press.
  2. Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.
  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值