强化学习（RLAI）读书笔记第四章动态规划

最新推荐文章于 2024-07-16 16:03:48 发布

无所知

最新推荐文章于 2024-07-16 16:03:48 发布

阅读量2k

点赞数 2

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_25037903/article/details/82194018

版权

动态规划是强化学习中的一种计算最优策略的算法，虽然在实际应用中受到限制，但其理论重要性不容忽视。本章介绍了包括Policy Evaluation、Policy Improvement、Policy Iteration、Value Iteration在内的动态规划算法，阐述了如何利用值函数进行策略搜索和优化，以及异步动态规划和Generalized Policy Iteration等概念，旨在在有限状态下找到最优策略。

摘要由CSDN通过智能技术生成

第四章：动态规划

动态规划是指一类在MDP下对环境有完全建模的计算最优策略的算法。经典的DP算法在强化学习中应用有限，不仅是因为需要对环境进行完全建模，而且还需要很多的计算资源。但是这个算法在理论上依然很重要。实际上，书中后面章节的所有算法都可以看成想要使用更少的计算资源而且不需要对环境完全建模的尽可能达到DP的效果的尝试。

一般我们假设环境是有限状态MDP。尽管动态规划也可以应用到连续状态和连续动作的场景中，但是我们一般会将状态和动作进行离散化，之后应用有限状态动态规划算法进行近似。第九章讲解这些算法。

DP或者说强化学习的核心思想是利用值函数来组织和结构化对策略的搜索。本章会介绍通过获得满足贝尔曼最优等式（下图）的值函数 $v_{*}$ 或者 $q_{*}$ 来很容易得出最优策略的算法。我们将会看到，DP算法会通过对类似下式的等式进行调整为赋值等式来对其值函数进行更新，最终进行优化和近似得到想要的值函数。

4.1 Policy Evaluation(Prediction)

首先我们考虑如何在策略 $\pi$ 下计算状态值函数 $v_{\pi}$ 。这个方法在DP中叫做policy evaluation，也叫作prediction problem。回忆一下第三章中值函数v的贝尔曼公式，下标 $\pi$ 表示遵从该策略， $\pi\left(a|s \right )$ 表示该策略状态s采取a的概率。只要是满足 $\gamma<1$ 或者在策略下有一个结束状态，那么v的存在性和唯一性就能得到保证。

如果环境的状态转移分布是完全已知的，那么公式4.4就相当于对状态空间中的 |S| 个状态每个都有一个等式，同时也有这么多未知数，理论上可以直接解出结果。假如有一个值函数估计值的序列， $v_{0},v_{1},v_{2},...$ 每个都代表从状态到一个实数的映射，那么根据贝尔曼等式我们可以得到如下连续递推估计的更新规则：

显然当 $v_{k}$ 趋近于 $v_{\pi}$ 的时候等式收敛。这个算法叫做policy evaluation。为了更新对值函数的估计值，循环policy evaluation对于每个状态的操作都是一样的，使用下一状态的旧的v以及转移到下一状态得到反馈的期望得到本状态的一个新的估计值，并用其来替代旧的估计值。这种操作叫做expected updat