强化学习笔记04——动态规划

最新推荐文章于 2024-03-09 00:35:29 发布

Mr丶Caleb

最新推荐文章于 2024-03-09 00:35:29 发布

阅读量2.3k

点赞数

分类专栏： Reinforcement Learning

本文链接：https://blog.csdn.net/qq_30159351/article/details/72800983

版权

Reinforcement Learning 专栏收录该内容

9 篇文章 4 订阅

订阅专栏

动态规划（DP）是指，当给出一个具体的环境模型已知的马尔科夫决定过程（MDP），可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限，因为他们假定了一个具体的模型，并且还受限于它们的计算cost很高，但它在理论上仍然很重要。

策略迭代

通用策略迭代是：
1. 先从一个策略 $\pi _{0}$ 开始，
2. 策略评估(Policy Evaluation) - 得到策略 $\pi _{0}$ 的价值 $v_{\pi _{0}}$
3. 策略改善(Policy Improvement) - 根据价值 $v_{\pi _{0}}$ ，优化策略 $\pi _{0}$ 。
4. 迭代上面的步骤2和3，直到找到最优价值 $v _{*}$ ，因此可以得到最优策略 $\pi_{*}$ （终止条件：得到了稳定的策略 $\pi$ 和策略价值 $v_{\pi}$ ）。
这个被称为通用策略迭代(Generalized Policy Iteration)。
数学表示如下：

π 0 - \to E v π 0 - \to I π 1 - \to E v π 1 - \to I π 2 - \to E \dots - \to I π * - \to E v *

$\pi_0 \xrightarrow{E} v_{\pi_0} \xrightarrow{I} \pi_1 \xrightarrow{E} v_{\pi_1} \xrightarrow{I} \pi_2 \xrightarrow{E} \cdots \xrightarrow{I} \pi_* \xrightarrow{E} v_*$
因此，我们需要关心两个问题：如何计算策略的价值，以及如何根据策略价值获得一个优化的策略。即策略评估和策略优化。
总体框架如下图：
这里写图片描述

下面分别讲解策略评估(Policy Evaluation)和策略改善(Policy Improvement)。

策略评估

策略评估是通过状态值函数来实现的，值函数定义为（ $\mathcal{S^{+}}比\mathcal{S}多了一个终止状态$ ）：

v π (s) ≐ E π [\sum k = 0 \infty γ k R t + k + 1 | S t = s] = \sum a π (a | s) \sum s', r p (s', r | s, a) [r + γ v π (s')], \forall s \in S ， \forall s' \in S +

$v_{\pi}(s) \doteq \mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right ] \\ = \sum_{a} \pi(a|s) \sum_{s',r} p(s',r|s,a) \left [ r + \gamma v_{\pi}(s') \right], \ \forall s \in \mathcal{S}，\forall s^{'} \in \mathcal{S^{+}}$
此时，s状态的值函数是由其他所有状态在策略

π $\pi$ 下的值函数确定，这是无法计算的。所以DP通过当前的策略

π $\pi$ 计算下一时刻的状态值函数。在多次迭代后(

k→∞ $k \to \infty$ )，

vk≈vπ $v_k \approx v_{\pi}$

v k + 1 (s) = E π [R t + 1 + γ v k (S t + 1) | S t = s] = \sum a π (a | s) \sum s', r p (s', r | s, a) [r + γ v k (s')], \forall s \in S, \forall s' \in S +

$v_{k+1}(s) = \mathbb{E}_{\pi} \left [ R_{t+1} + \gamma v_k(S_{t+1}) \ | \ S_t = s \right ] \\ = \sum_{a} \pi(a|s) \sum_{s',r} p(s',r|s,a) \left [ r + \gamma v_{k}(s') \right], \ \forall s \in \mathcal{S},\forall s^{'} \in \mathcal{S^{+}}$
这里写图片描述

策略优化

可以证明，最大化动作状态值函数的同时也会最大化状态值函数（P83）。所以策略优化通过最大化动作状态值函数实现。
这里写图片描述
由此可以得到前面策略迭代的流程框图。

价值迭代

价值迭代方法是对上面所描述的方法的一种简化：
在策略评估过程中，对于每个状态s，只找最优(价值是最大的)行动a。这样可以减少空间的使用。步骤如下：
1. 初始化 - 所有状态的价值（比如：都设为0）。
2. 初始化 - 一个等概率随机策略 $\pi_{0}$ (the equiprobable random policy)
3. 策略评估
对于每个状态s，只找最优(价值是最大的)行动a。即：

v k + 1 (s) ≐ m a x a E [R t + 1 + γ v k (S t + 1) | S t = s, A t = a] = m a x a \sum s', r p (s', r | s, a) [r + γ v k (s')]

$v_{k+1}(s) \doteq \underset{a}{max} \ \mathbb{E} \left [ R_{t+1} + \gamma v_k(S_{t+1}) \ | \ S_t = s , A_t = a\right ] \\ = \underset{a}{max} \ \sum_{s',r} p(s',r|s,a) \left [ r + \gamma v_{k}(s') \right]$
价值迭代不需要优化过程，最后输出的策略直接选取最大的值函数即可：
这里写图片描述

Mr丶Caleb

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
强化学习笔记04——动态规划

动态规划（DP）是指，当给出一个具体的环境模型已知的马尔科夫决定过程（MDP），可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限，因为他们假定了一个具体的模型，并且还受限于它们的计算cost很高，但它在理论上仍然很重要。策略迭代通用策略迭代是： 1. 先从一个策略π0\pi _{0}开始， 2. 策略评估(Policy Evaluation) - 得到策略π0\pi _{0
复制链接

扫一扫