强化学习（RLAI）读书笔记第五章蒙特卡洛方法

最新推荐文章于 2024-09-10 22:10:45 发布

无所知

最新推荐文章于 2024-09-10 22:10:45 发布

阅读量3.5k

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_25037903/article/details/82256977

版权

本文详细介绍了强化学习中的蒙特卡洛方法，包括Monte Carlo预测、动作值估计、控制方法以及无探索开始的控制。蒙特卡洛方法通过实际交互或仿真学习，不需要环境模型，而是依赖于样本序列。它使用平均样本反馈来估计值函数，并通过策略改进达到最优。此外，文章还探讨了off-policy预测中的重要性采样，以及incremental implementation在off-policy控制中的应用。

摘要由CSDN通过智能技术生成

第五章：蒙特卡洛方法

和前几章讲的不一样，蒙特卡洛方法不需要对环境进行完全的建模，而只需要经验，也就是实际或者仿真的与环境进行交互的整个样本序列，包括状态动作和反馈信息。从实际交互中学习并不需要对环境建模，而从仿真交互中学习也只需要能够产生相应的转移样本而不是完整的环境状态转移概率分布。而且很多的例子中产生相应的交互例子很容易，得到概率分布却很难。

蒙特卡洛方法采用平均样本反馈的方法来解决强化学习问题。为了保证得到定义好的reward值，我们只在episodic tasks上使用蒙特卡洛方法。也就是假设每个任务都能分为一个个episode，每个episode结束以后才进行值更新和策略的改进。因此蒙特卡洛法是以一个episode为单位来计算，而不是以每一步(online）来计算。

和第二章的bandit问题类似，蒙特卡洛法用的也是为每个状态或者状态动作对平均反馈的方式。但是在这个方法中有很多个状态，而且不同状态之间相互联系，同时每个动作的选择都在学习中，因此这个问题是非稳态且是associative search的。

为了解决这种非稳态，我们使用了第四章介绍的GPI框架。也就是在样本反馈中计算值函数，同时对策略进行改进最终达到最优。

5.1 Monte Carlo Prediction

首先考虑在给定策略下估计状态值函数的问题。状态的值是从该状态开始之后得到反馈的期望，一个简单的计算方式就是将从该状态开始的反馈值加起来求平均。随着计算次数增加，最终平均值会逼近期望值。这个想法在蒙特卡洛法中一直得到应用。

假设给定了一堆在策略 $\pi$ 下经过状态s的序列样本，我们想要评估在策略 $\pi$ 下状态s的值函数 $v_{\pi}(s)$ 。每次转移到状态s都叫做对s的一次访问(visit)。s有可能在样本中被访问多次，因此我们把第一次访问s的时间叫做对s的first-vist。首次访问蒙特卡洛法（first-visit MC method）把第一次访问状态s后得到的反馈值进行平均，而每次访问蒙特卡洛法（every-visit MC method）是把所有访问s后的反馈值进行平均。随着访问次数趋近于无穷，这两种方法的估计值都会收敛至目标值。