一、蒙特卡洛估计
蒙特卡洛估算是指一类广泛的技术,它依赖于重复的随机抽样来解决近似问题。
我们为什么关心蒙特卡洛估算?因为它不需要模型!
我们为什么关心均值估算?因为状态值(state value)和动作值(action value)被定义为随机变量的期望值!
1、抛硬币
2、大数定理
iid指:independent identity distritution
蒙特卡洛估算是指一类广泛的技术,它依赖于重复的随机抽样来解决近似问题。
我们为什么关心蒙特卡洛估算?因为它不需要模型!
我们为什么关心均值估算?因为状态值(state value)和动作值(action value)被定义为随机变量的期望值!
二、最简单的 MC-based RL algorithm
1、将策略迭代转换为无模型方法
2、The MC Basic algorithm
改变 Policy iteration algorithm 中的 policy evaluation步骤中计算q的方法:
- Policy iteration algorithm中policy evaluation步骤中计算q的方法是:先计算state value,然后根据state value计算action value;
- The MC Basic algorithm中policy evaluation步骤中计算q的方法是:直接采样计算action value;
- MC Basic是策略迭代算法的一种变体。
- 无模型算法是基于有模型算法构建的。因此,在学习无模型算法之前,有必要先了解有模型算法。
- MC Basic有助于揭示基于MC的无模型强化学习的核心思想,但由于效率低下而不切实际。
- 为什么MC Basic估算动作值而不是状态值?这是因为状态值不能直接用于改善策略。状态值转为动作值的时候还是得依赖模型,在没有模型的情况下,我们应该直接估算动作值。
- 由于策略迭代是收敛的,因此在足够的训练周期内,MC Basic的收敛也是有保障的。
3、案例1
4、案例2:Episode length
- 当回合长度较短时,只有靠近目标的状态具有非零状态值。
- 随着回合长度的增加,离目标更近的状态的非零值会比离得更远的状态更早出现。
- 回合长度应该足够长。
- 回合长度不必是无限长的。
三、MC Exploring Starts(Use data more efficiently)
1、更高效地利用数据
MC-based RL中的另一个方面是何时更新策略。有两种方法。
- 第一种方法是在策略评估步骤中,收集从一个状态-动作对开始的所有回合,然后使用平均回报来近似动作值。
- 这是MC Basic算法采用的方法。
- 这种方法的问题在于,代理必须等待直到所有回合都被收集完毕。
- 第二种方法使用单个回合的回报来近似动作值。
- 通过这种方式,我们可以逐回合改善策略。
第二种方法会导致问题吗?
- 有人可能会说,单个回合的回报无法准确地近似相应的动作值。
- 实际上,在上一章介绍的截断策略迭代算法中,我们已经这样做过!
广义策略迭代:
- 不是具体的算法。
- 它指的是在策略评估和策略改进过程之间切换的一般思想或框架。
- 许多基于模型和无模型的强化学习算法都属于这个框架。
2、MC Exploring Starts
什么是Exploring Starts?
- Exploring Starts意味着我们需要从每个状态-动作对开始生成足够多的回合。
- MC Basic 和 MC Exploring Starts 都需要这个假设。
为什么我们需要考虑Exploring Starts?
- 从理论上讲,只有每个状态的每个动作值都得到了充分的探索,我们才能正确选择最优动作。 相反,如果一个动作没有被探索过,这个动作有可能是最优动作,因此会被忽略。
- 在实践中,实现Exploring Starts是困难的。对于许多应用,特别是涉及与环境的物理交互的应用,很难收集从每个状态-动作对开始的回合。
- 因此,理论和实践之间存在差距。 我们能否取消Exploring Starts的要求?接下来我们将展示通过使用软策略我们是可以做到的。
四、MC ε-Greedy(MC without exploring starts )
1、Soft policies
一个策略如果采取任何动作的概率是正值,则称为软策略。
为什么要引入软策略?
- 使用软策略,一些足够长的回合就能够足够多次地访问每个状态-动作对。
- 因此,我们不需要从每个状态-动作对开始大量的回合。因此,exploring starts的要求可以被移除。
2、ε-greedy policies
3、MC ε-Greedy algorithm
4、MC ε-Greedy algorithm伪代码
5、MC ε-Greedy algorithm案例
5.1 MC ε-Greedy algorithm的探索性
当 ε = 1 时,策略(均匀分布)具有最强的探索能力。
当 ε 很小时,策略的探索能力也很小。当 ε=0就退化为Greedy algorithm。
5.2 Estimate based on one episode
运行MC ε-Greedy算法如下。在每次迭代中:
- 在生成回合的步骤中,使用先前的策略生成包含100万步的回合!
- 在其余的步骤中,使用单个回合来更新策略。
- 两次迭代可以得到最优的ε-greedy策略。
5.3 Optimality vs exploration
与贪心策略相比,
- ε-贪心策略的优势在于它们具有更强的探索能力,因此不需要探索起点条件。
- 不足之处在于 ε-贪心策略通常不是最优的(我们只能证明总是存在最优的贪心策略)。
- MC ε-Greedy算法给出的最终策略只在所有ε-贪心策略的集合Πε中是最优的。
- ε 不能太大。