4 动态编程（Dynamic Programming, DP）

最新推荐文章于 2024-08-06 09:45:25 发布

cute_Lily

最新推荐文章于 2024-08-06 09:45:25 发布

阅读量1.1w

点赞数 9

分类专栏： # 强化学习文章标签：算法

本文链接：https://blog.csdn.net/coffee_cream/article/details/62892546

版权

本文深入探讨动态编程（DP）在增强学习中的应用，特别是在解决马尔可夫决策过程（MDP）中的策略评估、策略改进、策略迭代、值迭代等方法。DP通过递归分解问题和利用子问题的解，有效处理优化问题。虽然在实际增强学习中由于计算复杂度不常用，但其理论基础十分重要。

摘要由CSDN通过智能技术生成

【上一篇 3 有限马尔可夫决策过程（Finite Markov Decision Processes）】
【下一篇 5 蒙特卡洛方法（Monte Carlo Method）】

之前介绍的知识都是基础，从这次开始才真正开始介绍增强学习的解法方法。

动态编程（Dynamic Programming, DP）这个词大家肯定都不陌生，在解决算法编程问题当中经常会用到，它的主要思想就是将一个复杂的问题分解成多个子问题，将子问题的解结合在一起就构成了原问题的解，它常常适合于解决具有如下两种属性的问题：
（1）优化的子结构：优化解常常可以分解成子问题；
（2）子问题有重叠：即子问题总是重复出现，该子问题的解可以保存下来重复利用。
　　
而马尔可夫决策过程就完美的符合这两点特性：
（1）需要求解的 Bellman 方程提供了递归的分解形式；
（2）Value function 需要存储和重用之前的解。

因此可以说 DP 可以用于求解马尔可夫模型的优化策略，但是由于 DP 问题需要环境的动态模型，并且计算复杂度较高，因此在增强学习中的应用并不广泛，但是它的思想在理论上还是非常重要的，是以后学习的一个理论基础。DP 算法的主要思想就是利用 value function 来寻找好的策略。
　　
这里先介绍一下后文中的符号表示（与之前的相同）：

假设状态集合、行为集合和 reward 集合分别为 $\mathcal{S}$ 、 $\mathcal{A}(s)$ 和 $\mathcal{R}$ ，动态性用概率 $p (s^{'}, r ∣ s, a)$ 来表示，其中 $s\in\mathcal{S}$ 、 $a\in\mathcal{A}(s)$ 、 $r\in\mathcal{R}$ 、 $s'\in\mathcal{S}^+$ （若问题为 episodic，则 $\mathcal{S}^+$ 指的是 $\mathcal{S}$ 加上终止状态）。

之前介绍过，若找到了满足 Bellman 优化方程的优化值函数 $v_*$ 或者 $q_*$ ，就可以容易的获得优化的策略， $v_*$ 与 $q_*$ 的表达式如下所示：
$\begin{aligned} v_{\ast}(s) &= \max_a{\Bbb E}[R_{t+1}+\gamma v_{\ast}(S_{t+1})|S_t=s,A_t=a] \\ &= \max_a\sum_{s’,r}{p(s',r|s,a)[r+\gamma v_{\ast}(s')]} \end{aligned}$

$\begin{aligned} q_{\ast}(s,a) &= {\Bbb E}[R_{t+1}+\gamma \max_{a'}q_{\ast}(S_{t+1},a') |S_t=s, A_t=a] \\ &= \sum_{s’,r}{p(s',r|s,a)[r+\gamma \max_{a'}q_{\ast}(s',a')]} \end{aligned}$