强化学习二（动态规划）

最新推荐文章于 2024-10-16 10:08:57 发布

Mingming Ha

最新推荐文章于 2024-10-16 10:08:57 发布

阅读量249

点赞数 1

分类专栏：强化学习文章标签：人工智能算法强化学习

本文链接：https://blog.csdn.net/ha41252022/article/details/103481190

版权

强化学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

动态规划 (Dynamic Programming)

动态规划的核心思想是使用价值函数来结构化的组织对最优策略的搜索。
首先，回顾一下贝尔曼最优方程：

最优状态价值函数
$V^*(s)=\max_a(R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V^*(s^,))$
最优动作状态价值函数
$Q^*(s,a)=R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}\max_{a^,}Q^*(s^,,a^,)$

1 策略评估 (Policy Evaluation)

对于一个任意策略 $\pi$ ，计算其状态价值函数 $V_{\pi}$ 的过程，叫做策略评估，也有文章中称为策略预测。
$\begin{aligned} V_\pi(s)&=\sum_{a\in{A}}\pi(a\vert s)Q_\pi(s,a)\\ &=\sum_{a\in{A}}\pi(a\vert s)[R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V_\pi(s^,)] \end{aligned}$

从上式可知，如果状态集 $\mathcal{S}$ 中含有 $n$ 个状态，那么上式就是一个含有 $n$ 个未知数以及 $n$ 个等式的线性方程组。
一般地，使用迭代法来求解上述问题。如下所示
$\begin{aligned} V_{k+1}(s)&=\sum_{a\in{A}}\pi(a\vert s)[R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V_k(s^,)] \end{aligned}$

除了终止状态值必须为0外，初始近似值 $V_0$ 可以任意选取。事实上，在保证 $V_\pi$ 存在的条件下，序列 ${V_k\}$ 在 $k$ 趋于无穷时将会收敛到 $V_\pi$ 。整个过程即迭代策略评估。

2 策略提升 (Policy Improvement)

策略评估的意义在于：通过计算该策略 $\pi$ 下的状态价值函数 $V_\pi$ 来评估该策略的好坏。
假设对于策略 $\pi$ ，已经通过策略评估得到其状态价值函数 $V_\pi$ 。如果从状态 $s$ ，继续使用策略 $\pi$ ，则其状态价值为 $V_\pi$ 。但是如果换一个策略，结果会怎样？

如果在状态 $s$ 选择另外的动作 $a\neq \pi(s)$ 后，继续使用当前策略 $\pi(s)$ ，那么根据定义，需要使用到状态动作价值函数来描述在状态 $s$ 选择另外的动作 $a\neq \pi(s)$ 以后的期望回报，如下所示。
$\begin{aligned} Q_\pi(s,a)&=E_\pi[G_t\vert{S}_t=s,A_t=a]\\ &=R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V_\pi(s^,) \end{aligned}$

注：这里的 $a$ 不是由策略 $\pi(s)$ 产生的，可以认为是别的策略 $\pi^,(s)$ 产生的， $a$ 也可以使用别的符号代替。
接下来，可以通过比较 $V_\pi$ 和 $Q_\pi$ 的大小来决定动作 $a$ 在这里是不是比原策略 $\pi(s)$ 产生的动作要好还是劣。
如果 $V_\pi$ 和 $Q_\pi$ 之间存在如下关系：
$Q_\pi(s,\pi^,(s))\geq V_\pi(s)$

那么可以认为改进后的策略 $\pi^,(s)$ 比原策略 $\pi(s)$ 好，值得说明的是，我们可以这样理解这个不等式，可以认为策略 $\pi^,(s)=a\neq\pi(s)$ ,在其他地方 $\pi^,(s)$ 和 $\pi(s)$ 完全相同。
进一步地，就有
$V_{\pi^,}(s)\geq V_\pi(s)$

基于上面的原理，对于每一个状态和每一个动作，可以得到一个新的贪心策略 $\pi^,(s)$ ，如下所示
$\begin{aligned} \pi^,(s)&=\argmax _aQ_\pi(s,a)\\ &=\argmax _a[R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V_\pi(s^,)] \end{aligned}$

根据原有策略计算得到状态价值函数获知状态动作价值函数，进而根据计算好的价值函数更新一个新的策略，称作策略提升。

3 策略迭代

策略迭代的整个流程如下
$\pi_0\rightarrow V_{\pi_0}\rightarrow\pi_1\rightarrow V_{\pi_1}\rightarrow\pi_2\rightarrow V_{\pi_2}\rightarrow\dotsc\rightarrow\pi^*\rightarrow V^*$

$\pi_0\rightarrow V_{\pi_0}$ 的过程就是前面提到的策略评估过程， $V_{\pi_0}\rightarrow\pi_1$ 的过程就是前面提到的策略提升过程。其中每一次策略评估都是一个迭代求解的过程。

策略迭代算法步骤：

初始化随机策略
得到随机策略的值函数，即策略评估
如果不是最优，找到一种新的改进策略，即策略提升
重复2，3，直到找到最优策略

4 值迭代

策略迭代算法的一个缺点在于在策略评估阶段需要迭代求解状态价值函数直到其收敛。值迭代的思想是在策略评估阶段只对策略评估做一次迭代，可以认为是一边策略评估，一边策略提升。使用更新公式可以表述这个过程。
$\begin{aligned} V_{k+1}(s)&=\max_aQ_\pi(s,a)\\ &=\max_a[R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V_k(s^,)]\\ \end{aligned}$

下面给出值迭代的算法步骤
值迭代算法步骤：

初始化状态值函数，一般初始化为全零状态值函数
根据公式 $Q_\pi(s,a)=R^a_s+\gamma\sum_{s^{,}\in{S}}P^a_{ss^,}V_\pi(s^,)$ 计算状态行为价值函数 $Q_\pi(s,a)$
用 $Q_\pi(s,a)$ 的最大值更新状态价值函数
重复2，3，直到状态价值函数收敛

异步动态规划

对于状态数目很多的任务，对于每一个状态进行价值迭代更新的话，将会陷入到很庞大状态集的更新中。异步动态规划的思想是：以任意的顺序来更新状态值。就是说，这些状态值的更新不是同步的，即，有的状态已经更新了好几遍了，有的状态很有可能还没有开始更新。但是，需要说明的是，异步动态规划需要设计一个计算节点，来确保计算节点后，该算法不能忽略任何一个状态。异步动态规划是一种更新价值函数和策略的思想，根据不同的文献，会有不同具体可行的更新方式。