model-free 方法：动态规划法DP(dynamic programing)

最新推荐文章于 2023-11-15 19:28:07 发布

极乐寺住持

最新推荐文章于 2023-11-15 19:28:07 发布

阅读量1.2k

点赞数

分类专栏：强化学习由浅入深文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/HEU_Yutianqi/article/details/124116636

版权

强化学习由浅入深专栏收录该内容

7 篇文章 2 订阅

订阅专栏

的基于模型的强化学习方法需要对模型有完全的认知，也就是：对于强化与学习的五个要素：有限的状态集、动作集、转移函数、奖励函数、衰减折扣都是已知的。在这种情况下，贝尔曼期望方程就可以写成具体的形式。

$V_{\pi}(s)=\sum_{a}\pi(a|s) \left ( R^a_s+\gamma\sum_sp(s'|s,a)V_{\pi}(s')\right )$

$Q_{\pi}(s,a)=R^a_s+\gamma\sum_sp(s'|s,a)\sum_a\pi(a'|s')Q_{\pi}(s',a')$

动态规划法（DP）

1.策略优化构成

当我们要对一个策略进行优化的时候（无论是查表法还是直接改进策略），首先要对当前的策略进行评估，然后根据评估结果改进表格或直接调整策略。

所谓策略评估，就是利用当前策略，求出在当前策略指导下的价值函数。策略改进就是一句某种规律根据评估出的结果对策略进行改进。往复循环直到达到最优策略。

2.贝尔曼最优方程

在训练过程中，什么情况下意味着我们已经得到了最优策略？

我们定义最优价值函数： $V_*=max_{\pi}V_{\pi}(s),Q_{*}=max_{\pi}Q_{\pi}(s,a)$

最优策略（能让价值函数达到最大的策略，且可能不止一个 $\pi_*=argmax_{\pi}V_{\pi}(s)=argmax_{\pi}Q_{\pi}(s,a)$

关于为什么能够使两种价值函数同时达到最大，我的理解是通过之前讲过的公式中线性关系 $Q_{\pi}(s,a)=R^a_s+\gamma \sum_ap(s'|s,a)V_{\pi}(s')$

so， $V_*=max_{\pi}V_{\pi}(s)=V_{\pi _*}(s),Q_{*}=max_{\pi}Q_{\pi}(s,a)=Q_{\pi _*}(s,a)$ ,可以比较容易的推到： $V_{\pi_*}(s)\leq \begin{matrix}max \\ a \end{matrix}Q_{\pi_*}(s,a)$ 。即：只有在某状态下选择最优的动作时，动作价值函数才会与状态价值函数相等，其余小于。在这篇文章中写的比较好：贝尔曼最优方程

最后我们得出最优状态下的贝尔曼期望方程，即贝尔曼最优方程：

此时，我们无论再怎么进行评估与改进，价值函数不会发生变化。此时的策略就是最优策略。

3.策略评估

（1）*矩阵法直接求解策略评估

策略评估任务中，我们的目标就是求给定策略下的价值，即所有状态下，所有动作的动作价值函数已知就完成任务。在贝尔曼期望方程的帮助下，这个问题看起来很容易解决，因为方程描述了状态与状态间的状态价值函数关系，动作与动作间动作价值函数的关系，且价值函数间的关系是线性的。我们可以通过这种关系列出足够解出价值函数的多元一次方程，也就是可以用线性代数的方法求解。以价值函数为例，将价值函数的贝尔曼期望方程写成矩阵形式：

例如方程中的V可以改写为 $V_{\pi}=\begin{bmatrix}V_{\pi}(s^1) \\ V_{\pi}(s^2) \\ V_{\pi}(s^3) \\ ...... \\ V_{\pi}(s^n) \end{bmatrix}$ ,R可以改写为 $R=\begin{bmatrix}R_{s1} \\ R_{s2} \\ R_{s3} \\ ...... \\ R_{sn} \end{bmatrix}$ ,状态转移也写成转移矩阵