强化学习-赵世钰(五)-PPT:蒙特卡洛方法(Monte Carlo)

一、蒙特卡洛估计

蒙特卡洛估算是指一类广泛的技术,它依赖于重复的随机抽样来解决近似问题。

我们为什么关心蒙特卡洛估算?因为它不需要模型!

我们为什么关心均值估算?因为状态值(state value)和动作值(action value)被定义为随机变量的期望值!

1、抛硬币

2、大数定理

iid指:independent identity distritution

蒙特卡洛估算是指一类广泛的技术,它依赖于重复的随机抽样来解决近似问题。

我们为什么关心蒙特卡洛估算?因为它不需要模型!

我们为什么关心均值估算?因为状态值(state value)和动作值(action value)被定义为随机变量的期望值!

二、最简单的 MC-based RL algorithm 

1、将策略迭代转换为无模型方法

2、The MC Basic algorithm

改变 Policy iteration algorithm 中的 policy evaluation步骤中计算q的方法:

  • Policy iteration algorithm中policy evaluation步骤中计算q的方法是:先计算state value,然后根据state value计算action value;
  • The MC Basic algorithm中policy evaluation步骤中计算q的方法是:直接采样计算action value;

  • MC Basic是策略迭代算法的一种变体。
  • 无模型算法是基于有模型算法构建的。因此,在学习无模型算法之前,有必要先了解有模型算法。
  • MC Basic有助于揭示基于MC的无模型强化学习的核心思想,但由于效率低下而不切实际。
  • 为什么MC Basic估算动作值而不是状态值?这是因为状态值不能直接用于改善策略。状态值转为动作值的时候还是得依赖模型,在没有模型的情况下,我们应该直接估算动作值。
  • 由于策略迭代是收敛的,因此在足够的训练周期内,MC Basic的收敛也是有保障的。

3、案例1

4、案例2:Episode length

  • 当回合长度较短时,只有靠近目标的状态具有非零状态值。
  • 随着回合长度的增加,离目标更近的状态的非零值会比离得更远的状态更早出现。
  • 回合长度应该足够长。
  • 回合长度不必是无限长的。

三、MC Exploring Starts(Use data more efficiently)

1、更高效地利用数据

MC-based RL中的另一个方面是何时更新策略。有两种方法。

  • 第一种方法是在策略评估步骤中,收集从一个状态-动作对开始的所有回合,然后使用平均回报来近似动作值。
    • 这是MC Basic算法采用的方法。
    • 这种方法的问题在于,代理必须等待直到所有回合都被收集完毕。
  • 第二种方法使用单个回合的回报来近似动作值。
    • 通过这种方式,我们可以逐回合改善策略。

第二种方法会导致问题吗?

  • 有人可能会说,单个回合的回报无法准确地近似相应的动作值。
  • 实际上,在上一章介绍的截断策略迭代算法中,我们已经这样做过!

广义策略迭代:

  • 不是具体的算法。
  • 它指的是在策略评估和策略改进过程之间切换的一般思想或框架。
  • 许多基于模型和无模型的强化学习算法都属于这个框架。

2、MC Exploring Starts

什么是Exploring Starts?

  • Exploring Starts意味着我们需要从每个状态-动作对开始生成足够多的回合。
  • MC Basic 和 MC Exploring Starts 都需要这个假设。

为什么我们需要考虑Exploring Starts?

  • 从理论上讲,只有每个状态的每个动作值都得到了充分的探索,我们才能正确选择最优动作。 相反,如果一个动作没有被探索过,这个动作有可能是最优动作,因此会被忽略。
  • 在实践中,实现Exploring Starts是困难的。对于许多应用,特别是涉及与环境的物理交互的应用,很难收集从每个状态-动作对开始的回合。
  • 因此,理论和实践之间存在差距。 我们能否取消Exploring Starts的要求?接下来我们将展示通过使用软策略我们是可以做到的。

四、MC ε-Greedy(MC without exploring starts )

1、Soft policies

一个策略如果采取任何动作的概率是正值,则称为软策略。

为什么要引入软策略?

  • 使用软策略,一些足够长的回合就能够足够多次地访问每个状态-动作对。
  • 因此,我们不需要从每个状态-动作对开始大量的回合。因此,exploring starts的要求可以被移除。

2、ε-greedy policies

3、MC ε-Greedy algorithm

4、MC ε-Greedy algorithm伪代码

5、MC ε-Greedy algorithm案例

5.1 MC ε-Greedy algorithm的探索性

当 ε = 1 时,策略(均匀分布)具有最强的探索能力。

当 ε 很小时,策略的探索能力也很小。当 ε=0就退化为Greedy algorithm。

5.2 Estimate based on one episode

运行MC ε-Greedy算法如下。在每次迭代中:

  • 在生成回合的步骤中,使用先前的策略生成包含100万步的回合!
  • 在其余的步骤中,使用单个回合来更新策略。
  • 两次迭代可以得到最优的ε-greedy策略。

5.3 Optimality vs exploration

与贪心策略相比,

  • ε-贪心策略的优势在于它们具有更强的探索能力,因此不需要探索起点条件。
  • 不足之处在于 ε-贪心策略通常不是最优的(我们只能证明总是存在最优的贪心策略)。
  • MC ε-Greedy算法给出的最终策略只在所有ε-贪心策略的集合Πε中是最优的。
  • ε 不能太大。

5.4  Consistency




【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值