动态规划求解强化学习任务——价值迭代

静静的喝酒

已于 2022-06-09 11:35:07 修改

阅读量815

点赞数 2

分类专栏：强化学习文章标签：动态规划算法贪心算法人工智能

于 2022-06-07 16:41:29 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/125162341

版权

本文深入探讨了强化学习中的策略迭代和价值迭代方法。策略迭代包括策略评估和策略改进两步，但存在循环嵌套的问题。价值迭代则通过截断策略评估，仅进行一步更新即进行策略改进，以提高效率。此外，介绍了异步更新策略，用于处理大规模状态空间的问题。最后，讨论了广义策略迭代的思想，允许在策略评估未完成时进行策略改进，以达到最优策略和价值函数。

摘要由CSDN通过智能技术生成

动态规划求解强化学习任务——价值迭代

在整个迭代过程中，策略评估(迭代解) 本身就是一个迭代过程，即便使用了策略改进定理优化了计算最优价值函数的过程，但仍改变不了其循环嵌套循环的本质。
为了优化掉这个嵌套循环的过程，我们将介绍价值迭代。

价值迭代

价值迭代介绍

针对策略迭代中策略评估过程中的缺陷，思考如何优化策略评估步骤；
首先回顾策略评估的算法过程：

输入	初始策略： $\pi(a \mid s)$ ,动态特性函数： $p(s',r\mid s,a)$ ,奖励： $r$ ,折扣系数： $\gamma$
初始化操作 (Initialization operation)	1. 对 $\forall s \in \mathcal S$ ,初始化状态价值函数：如 $V (s) = 0$ ; 2.设置一个阈值 $\theta$ ,将其设置为很小的实数值，如 $\theta=0.01$
策略评估 (Policy Evaluation)	1. repeat 对每一轮策略评估： $k = 1, 2, . . .$ 2. $\delta \gets 0$ 3. for 每个状态 $s$ do： 4. $\mathcal v \gets V(s)$ 5. $\gets \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a) [r + \gamma V(s')]$ 6. $\delta \gets max(\delta, \mid \mathcal v - V(s) \mid)$ 7. end for 8. until $\delta < \theta$
输出结果	$V (s)$

通过上述的算法过程，我们发现：
在计算新的 $V_\pi(s)$ 过程中，使用贝尔曼期望方程 $\to$ 加权平均方法进行迭代；

计算加权平均方法是从整个策略本身对状态价值函数计算的结果。但在迭代过程中，中间过程中的价值函数并不是我们关心的对象，而只有最终迭代收敛后的 $V_*(s),\pi_*(a \mid s)$ 才是我们关注的最终结果。

因此，如何优化策略迭代中循环嵌套循环的情况？提出一种解决方案：对策略评估进行截断：

从常规思路考虑，假设某一次迭代的策略改进结果为 $\pi$ ，进入下一次的策略评估时，仍然需要上述算法通过迭代的方式求解精确的最优价值函数 $V_*(s)$ ，这种方式实际上只要进行迭代，它必然会向最优价值函数方向更新,并且迭代次数越高，可优化的信息可能就越少(最优价值函数在更新过程中增长的越慢)
总而言之，通过大规模的迭代只是得到一个比较精确的中间过程的价值函数是很不划算的；
截断策略评估使用的方式

在策略评估的迭代过程中仅进行一步后直接进行策略改进；
根据贝尔曼方程满足的不动点定理 $\to$ 即便只是更新了一步，但它仍然产生了一个优于更新前的价值函数。
它具体是如何更新这一步的呢？

贝尔曼最优方程 $\to$ 干脆选择一个最优动作对应的状态-动作价值函数进行更新；
$V_{k+1}(s) = \mathop{\max}\limits_{a} \sum_{s',r}p(s',r \mid s,a)[r + \gamma V_k(s')]$

继续观察：

首先从数值角度来观察 $V_{k+1}(s)$ 结果，在之前介绍的贝尔曼最优方程一节中提到，期望(加权平均)值小于最大值。因此，取最大值方式相比于期望方式必然更新的幅度更大一些；
从准确性角度观察 $V_{k+1}(s)$ 结果，这个结果相比于期望方式求解结果必然更加粗糙一些。因为期望方式求解结果中存在策略的权重比例，而最大值方式默认这个权重比例为：