【强化学习】三、动态规划

最新推荐文章于 2025-04-30 16:06:04 发布

Henry_Zhao10

最新推荐文章于 2025-04-30 16:06:04 发布

阅读量170

点赞数

分类专栏：强化学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/Henry_Zhao10/article/details/132453559

版权

强化学习专栏收录该内容

12 篇文章

订阅专栏

三、动态规划

1.介绍

动态规划（Dynamic Programming，DP）是一类优化算法

动态规划将待求解问题分解成若干的子问题，先求解子问题，然后从这些子问题的解得到目标问题的解。

核心特点：

最优子结构：子问题的最优解是可以得到的
重复子问题：子问题的解决方案可以存储和重用

动态规划与强化学习

在完备的马尔可夫决策过程中，DP可用于计算最优策略。完备是指 $\mathcal P_{ss^\prime}^a$ 和 $R_s^a$ 已知

对于强化学习问题，传统的DP算法作用有限：

完备的环境模型只是一个假设
计算复杂度极高

但是DP提供了必要的基础，所有其他方法都是对DP的近似

降低计算复杂度
减弱对环境模型完备性的假设

基于动态规划的强化学习

策略迭代（Policy iteration）：使用贝尔曼期望方程，求解最优策略，包含两个核心步骤：

策略评估（Policy evaluation）：输入 $MDP(S,A,P,R,\gamma)$ 和策略 $\pi$ ，输出价值函数 $v_\pi$
策略提升（Policy Improvement）：输入 $MDP(S,A,P,R,\gamma)$ 和价值函数 $v_\pi$ ，输出最优价值函数 $v_*$ 和最优策略 $\pi$

价值迭代（Value iteration）：使用贝尔曼最优方程，求解最优策略

2.策略评估

迭代策略评估

**问题：**评估一个给定的策略 $\pi$ ，也称为“预测”问题

**解决方案：**迭代应用贝尔曼期望方程进行回溯
$v_1 \rightarrow v_2 \rightarrow \dots \rightarrow v_\pi \\\\\forall s: \quad v_{k+1}(s) \leftarrow \mathbb{E}_\pi\left[R_{t+1}+\gamma v_k\left(S_{t+1}\right) \mid S_t=s\right]$
不断地用老的打分器去更新新的打分器，算法会收敛到 $v_\pi$

算法流程：

输入待评估的策略 $\pi$

算法参数：小阈值 $\theta > 0$ ，用于确定估计量的精度

对于任意 $\in s^+$ ，任意初始化 $V (s)$ ，其中 $V (终止状态) = 0$

循环：

$\Delta \leftarrow 0$
对每一个 $\in S$ 循环：
- $\leftarrow V(s)$
- $\leftarrow \sum_{a \in \mathcal A}\pi(a \mid s)(\mathcal{R}_s^a+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^a V\left(s^{\prime}\right))$
- $\Delta \leftarrow max(\Delta, |v-V(s)|)$

直到 $\Delta < \theta$

示例：

3.策略迭代

**问题：**如何获得最优策略？

**回答：**策略迭代方法，交替迭代下述步骤：

评估给定的策略 $\pi$ ，获得价值函数

$v_\pi(s)=\mathbb E_\pi[R_{t+1} + \gamma R_{t+2}+ \dots \mid S_t=s]$

应用贪婪方法来改进策略，使其后续状态价值增加最多

$\pi^\prime=greedy(v_\pi)$

在小型网格世界中，改进后的策略就是最佳的策略， $\pi^\prime=\pi^*$

但是更多的场合中，我们需要进行多次的评估和改进迭代，才能找到最优策略

上述算法一般都能收敛至最佳策略 $\pi^*$

如果改进停止，
$q_\pi\left(s, \pi^{\prime}(\mathrm{s})\right)=\max _{a \in A} q_\pi(s, a)=q_\pi(s, \pi(\mathrm{s}))=v_\pi(s)$
满足贝尔曼最优方程
$\max _{a \in A} q_\pi(s, a)=v_\pi(s)$
此时，对于所有的 $\in S, v_\pi(s)=v_*(s)$

所以， $\pi$ 是最优策略

策略迭代的相关讨论

策略评估需要收敛到 $v_\pi$ 吗？在k次迭代策略评估后停止？

比如在小型网格世界中， $k = 3$ 就可以输出最优策略

为什么不每次迭代都更新策略，即k=1？

这等效于价值迭代

4.价值迭代

价值迭代流程

**问题：**找到一个最优的策略 $\pi$

**方法：**迭代应用贝尔曼最优方程进行回溯
$\forall s:v_{k+1}(s) \leftarrow \max_a (\mathcal{R}_s^a+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^a V\left(s^{\prime}\right))$
最终可以收敛于最优价值函数 $v_*$