强化学习-赵世钰（五）-PPT：蒙特卡洛方法（Monte Carlo）

u013250861

已于 2023-12-09 00:47:19 修改

阅读量273

点赞数

文章标签：强化学习

于 2023-11-19 02:08:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/134486374

版权

一、蒙特卡洛估计

蒙特卡洛估算是指一类广泛的技术，它依赖于重复的随机抽样来解决近似问题。

我们为什么关心蒙特卡洛估算？因为它不需要模型！

我们为什么关心均值估算？因为状态值（state value）和动作值（action value）被定义为随机变量的期望值！

1、抛硬币

2、大数定理

iid指：independent identity distritution

蒙特卡洛估算是指一类广泛的技术，它依赖于重复的随机抽样来解决近似问题。

我们为什么关心蒙特卡洛估算？因为它不需要模型！

我们为什么关心均值估算？因为状态值（state value）和动作值（action value）被定义为随机变量的期望值！

二、最简单的 MC-based RL algorithm

1、将策略迭代转换为无模型方法

2、The MC Basic algorithm

改变 Policy iteration algorithm 中的 policy evaluation步骤中计算q的方法：

Policy iteration algorithm中policy evaluation步骤中计算q的方法是：先计算state value，然后根据state value计算action value；
The MC Basic algorithm中policy evaluation步骤中计算q的方法是：直接采样计算action value；

MC Basic是策略迭代算法的一种变体。
无模型算法是基于有模型算法构建的。因此，在学习无模型算法之前，有必要先了解有模型算法。
MC Basic有助于揭示基于MC的无模型强化学习的核心思想，但由于效率低下而不切实际。
为什么MC Basic估算动作值而不是状态值？这是因为状态值不能直接用于改善策略。状态值转为动作值的时候还是得依赖模型，在没有模型的情况下，我们应该直接估算动作值。
由于策略迭代是收敛的，因此在足够的训练周期内，MC Basic的收敛也是有保障的。

3、案例1

4、案例2：Episode length

当回合长度较短时，只有靠近目标的状态具有非零状态值。
随着回合长度的增加，离目标更近的状态的非零值会比离得更远的状态更早出现。
回合长度应该足够长。
回合长度不必是无限长的。

三、MC Exploring Starts（Use data more eﬃciently）

1、更高效地利用数据

MC-based RL中的另一个方面是何时更新策略。有两种方法。

第一种方法是在策略评估步骤中，收集从一个状态-动作对开始的所有回合，然后使用平均回报来近似动作值。
- 这是MC Basic算法采用的方法。
- 这种方法的问题在于，代理必须等待直到所有回合都被收集完毕。
第二种方法使用单个回合的回报来近似动作值。
- 通过这种方式，我们可以逐回合改善策略。

第二种方法会导致问题吗？

有人可能会说，单个回合的回报无法准确地近似相应的动作值。
实际上，在上一章介绍的截断策略迭代算法中，我们已经这样做过！

广义策略迭代：

不是具体的算法。
它指的是在策略评估和策略改进过程之间切换的一般思想或框架。
许多基于模型和无模型的强化学习算法都属于这个框架。

2、MC Exploring Starts

什么是Exploring Starts？

Exploring Starts意味着我们需要从每个状态-动作对开始生成足够多的回合。
MC Basic 和 MC Exploring Starts 都需要这个假设。

为什么我们需要考虑Exploring Starts？

从理论上讲，只有每个状态的每个动作值都得到了充分的探索，我们才能正确选择最优动作。相反，如果一个动作没有被探索过，这个动作有可能是最优动作，因此会被忽略。
在实践中，实现Exploring Starts是困难的。对于许多应用，特别是涉及与环境的物理交互的应用，很难收集从每个状态-动作对开始的回合。
因此，理论和实践之间存在差距。我们能否取消Exploring Starts的要求？接下来我们将展示通过使用软策略我们是可以做到的。

四、MC ε-Greedy（MC without exploring starts ）

1、Soft policies

一个策略如果采取任何动作的概率是正值，则称为软策略。

为什么要引入软策略？

使用软策略，一些足够长的回合就能够足够多次地访问每个状态-动作对。
因此，我们不需要从每个状态-动作对开始大量的回合。因此，exploring starts的要求可以被移除。

2、ε-greedy policies

3、MC ε-Greedy algorithm

4、MC ε-Greedy algorithm伪代码

5、MC ε-Greedy algorithm案例

5.1 MC ε-Greedy algorithm的探索性

当 ε = 1 时，策略（均匀分布）具有最强的探索能力。

当 ε 很小时，策略的探索能力也很小。当 ε=0就退化为Greedy algorithm。

5.2 Estimate based on one episode

运行MC ε-Greedy算法如下。在每次迭代中：

在生成回合的步骤中，使用先前的策略生成包含100万步的回合！
在其余的步骤中，使用单个回合来更新策略。
两次迭代可以得到最优的ε-greedy策略。

5.3 Optimality vs exploration

与贪心策略相比，

ε-贪心策略的优势在于它们具有更强的探索能力，因此不需要探索起点条件。
不足之处在于 ε-贪心策略通常不是最优的（我们只能证明总是存在最优的贪心策略）。
MC ε-Greedy算法给出的最终策略只在所有ε-贪心策略的集合Πε中是最优的。
ε 不能太大。

5.4 Consistency

【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。