RL(3):动态规划

最新推荐文章于 2023-12-11 00:10:47 发布

学长很忙

最新推荐文章于 2023-12-11 00:10:47 发布

阅读量260

点赞数

分类专栏： # DL

本文链接：https://blog.csdn.net/qq_41984831/article/details/108463892

版权

DL 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1. 策略迭代

有两个子步骤：policy evaluation策略评估和policy improvement策略改进。策略评估的目的是对于给定的策略 $\pi$ ，确定状态值函数 $v_\pi(s)$ ；策略改进的目的是找出新策略 $\pi'(s)$ 使得 $\pi'\ge\pi$

策略迭代的步骤：
1.随机选择初始策略 $\pi_0$ ，令 $\pi_k=\pi_0$ ；
2.对 $\pi_k$ 实行策略评估，获得状态值 $v_{\pi_k}$ ；
3. 基于 $v_{\pi_k}$ ，对 $\pi_k$ 实行策略改进，产生新策略 $\pi_{k+1}$ ，使 $\pi_{k+1}\underset{一}{>}\pi_k$ 。
4.如果 $\pi_{k+1}=\pi_k$ ，就停止。现在的最佳策略就是 $\pi_*=\pi_k$ 。否则就返回步骤2。

1.1 策略评估

主要想法是把对 $v_\pi$ 的贝尔曼方程变成一个在迭代过程中不断更新的策略，最终对给定 $\pi$ 得出 $v_\pi(s)$ 的值。
$v_{k+1}(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')]$

策略评估会随着迭代次数k的增加而收敛，这个结论证明的关键步骤：
1.用Bellman policy operator算子（ $\mathbb T_\pi$ ）表示贝尔曼方程：
$\mathbb T_\pi v_k=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k]$

2. $\mathbb T_\pi$ 是一个收缩映射：
$||\mathbb T_\pi v_k-\mathbb T_\pi v_{k+1}||_\infty \underset{一}{<}\gamma||v_k-v_{k+1}||_\infty$
3.由Contraction Mapping Theorem压缩映射原理可知， $\mathbb T_\pi$ 有唯一的不动点 $v_\pi$ ，也就是说，策略评估算法收敛于 $v_\pi$ 。

$δ_k$ 表示在迭代 $k$ 结束时 $v_k(s)$ 与 $v_π(s)$ 之差的最大值：

$δ_k\overset{\Delta}{=}\underset{s}{\rm max}|v_\pi(s)-v_k(s)|$
去掉 $\rm max$ 范围：
$|v_\pi(s)-v_k(s)|\underset{一}{<}δ_k$

由此可得：
$-\delta_k\leq v_\pi(s)-v_k(s)\leq\delta_k \\ \Rightarrow -v_\pi(s)-\delta_k\leq -v_k(s)\leq -v_\pi(s)+\delta_k \\ \Rightarrow v_\pi(s)+\delta_k\ge v_k(s)\ge v_\pi(s)-\delta_k\\ \Rightarrow v_\pi(s)-\delta_k\leq v_k(s)\leq v_\pi(s)+\delta_k$
由于上式适用于迭代 $k$ 次的任何状态，因此对于状态 $s^{'}$ ，我们有
$v_k(s')\ge v_\pi(s')-\delta_k$

现在考虑迭代 $k + 1$ ，更新的规则可以写为
$\begin{aligned} v_{k+1}(s)&=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')]\\ &\ge \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma (v_\pi(s')-\delta_k)]\\ &=v_\pi(s)-\gamma \delta_k \end{aligned}$
即
$v_\pi(s)-\gamma \delta_k\leq v_{k+1}(s)\\ \delta_{k+1}\overset{\Delta}{=}\underset{s}{\rm max}|v_\pi(s)-v_{k+1}(s)|\leq\underset{s}{\rm max}|\gamma \delta_k|=\gamma \delta_k$
如果设置 $0\leq\gamma<1$ ，即 $\delta_k\rightarrow0$ ，也就是在 $k\rightarrow\infty$ 的时候， $v_k(s)\rightarrow v_\pi(s)$ 。

1.2 策略改进

分两步。

第一步，选择的新策略 $\pi'$ 要符合条件：
$q_\pi(s,\pi'(s))\ge v_\pi(s)$
详细展开：
$\begin{aligned} v_\pi(s)&\leq q_\pi(s,\pi'(s))\\ &=\mathbb E[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s,A_t=\pi'(s)]\\ &=\mathbb E_{\pi'}[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s]\\ &\leq \mathbb E_{\pi'}[R_{t+1}+\gamma q_\pi(S_{t+1},\pi'(S_t+1))|S_t=s]\\ &=\mathbb E_{\pi'}[R_{t+1}+\gamma \mathbb E_{\pi'}[R_{t+2}+\gamma v_\pi(S_{t+2})|S_{t+1},A_{t+1}=\pi'(S_{t+1})]|S_t=s]\\ &=\mathbb E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2 v_{\pi}(S_{t+2})|S_t=s]\\ &\leq \mathbb E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\gamma^3 v_\pi(S_t+3)|S_t=s ]\\&...\\ &\leq \mathbb E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\gamma^3 R_{t+4}+...|S_t=s]\\ &=v_{\pi'}(s) \end{aligned}$

第二步，怎么选择符合条件的 $\pi'$ ?
一种方法是
$\begin{aligned} \pi'(s)&\overset{\Delta}{=}\underset{a}{\rm argmax}q_\pi(s,a)\\ &=\underset{a}{\rm argmax} \mathbb E[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s,A_t=a]\\ &=\underset{a}{\rm argmax}\sum_{s',r}p(s',r|s,a)[r+\gamma,v_\pi(s')] \end{aligned}$

1.3 策略迭代收敛

因为在每个状态下做出的都是贪心算法的行为，所以有
$\begin{aligned} v_{\pi'}&=\underset{a}{\rm max }\mathbb E[R_{t+1}+\gamma v_{\pi'}(S_{t+1})|S_t=s,A_t=a]\\ &=\underset{a}{\rm max}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi'}(s')] \end{aligned}$
与有 $v_∗= v_{\pi'}$ 的Bellman最优性方程相同，所以 $\pi'=\pi_*$
因此，策略迭代可以保证产生最优策略。

2. 值迭代

2.1 更新规则

状态值 $v (s)$ 的值迭代：
$\begin{aligned} v_{k+1}(s)&=\underset{a}{\rm max}\mathbb E[R_{t+1}+\gamma v_k(S_{t+1})|S_t=s,A_t=a]\\ &=\underset{a}{\rm max}\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')],对于所有的s\in S \end{aligned}$
行为值 $q (s, a)$ 的值迭代：
$q_{k+1}(s,a)=\sum_{s',r}p(s',r|s,a)[r+\gamma \underset{a}{\rm max}q_k(s',a')]$
一旦找到最优值 $v_∗(s)$ 或 $q_∗(s,a)$ ，就可以根据这些值提取最优策略:
$\pi_*(s)= \begin{cases} &\underset{a}{\rm argmax}\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')]\\ &\underset{a}{\rm argmax}q_*(s,a) \end{cases}$
如果策略和奖励函数是确定的，更新规则就可以用转换概率 $P^a_{ss'}$ 和奖励函数 $\rho(s,a,s')$ 表示，而不需要 $p$ 函数：
$Q(s,a)\leftarrow \sum_{s'}P^a_{ss'}(\rho(s,a,s')+\gamma\underset{a'}{\rm max}Q(s',a') )$

2.2 例证

2.3 值迭代的收敛

第一步：

假设在迭代 $k$ 次时,动作值 $q_k(s,a)$ 对于一些状态和动作不是最优,即 $q_k(s,a)\ne q_*(s,a)$ 。我们可以将 $q_k(s,a)$ 与 $q_∗(s,a)$ 的最大差为
$δ_k\overset{\Delta}{=}\underset{s,a}{\rm max}|q_*(s,a)-q_k(s,a)|$
去掉 $\rm max$ 范围：
$|q_*(s,a)-q_k(s,a)|\leqδ_k$

由此可得：
$-\delta_k\leq q_*(s,a)-q_k(s,a)\leq\delta_k \\ \Rightarrow -q_*(s,a)-\delta_k\leq -q_k(s,a)\leq -q_*(s,a)+\delta_k \\ \Rightarrow q_*(s,a)+\delta_k\ge q_k(s,a)\ge q_*(s,a)-\delta_k\\ \Rightarrow q_*(s,a)-\delta_k\leq q_k(s,a)\leq q_*(s,a)+\delta_k$
现在考虑迭代 $k + 1$ ，更新的规则可以写为
$q_{k+1}(s,a)=\sum_{s',r}p(s',r|s,a)[r+\gamma \underset{a}{\rm max}q_k(s',a')]\\ q_{k+1}(s,a)\leq q_*(s,a)+\gamma \delta_k$
由于 $q_∗(s,a)$ 是有限的，上述方程表明如果 $\delta_k$ 是有界的， $q_{k+1}(s,a)$ 是有界的。由于最初 $q_0(s,a)$ 被设置为零，并且在每次迭代中， $\delta_k$ 是 $q_k(s,a)$ 和 $q_∗(s,a)$ 之间的最大绝对差，我们可以得出 $q_{k+1}$ 也是有界的。

第二步：

$q_k(s,a)$ 随着 $k$ 的增加而单调地接近 $q_∗(s,a)$ :

$q_k(s',a')\ge q_*(s',a')-\delta_k$
$\begin{aligned} q_{k+1}(s,a)&=\sum_{s',r}p(s',r|s,a)(r+\gamma \underset{a'}{\rm max}q_k(s',a'))\\ &\ge \sum_{s',r}p(s',r|s,a)(r+\gamma \underset{a'}{\rm max}(q_*(s',a')-\delta_k))\\ &=\sum_{s',r}p(s',r|s,a)(r+\gamma\underset{a'}{\rm max}q_*(s',a'))-\gamma\delta_k\\ &=q_*(s,a)-\gamma \delta_k\\ \end{aligned}$
$q_*(s,a)-\gamma \delta_k\leq q_{k+1}(s,a)\\ or q_*(s,a)-q_{k+1}(s,a)\leq \gamma\delta_k$
$\delta_{k+1} \overset{\Delta}{=}\underset{s,a}{\rm max}|q_*(s,a) - q_{k+1}(s,a)|\leq\underset{s,a}{\rm max}|\gamma \delta_k|=\gamma\delta_k\\ \delta_{k+1}\leq\gamma\delta_k$
如果设置 $0\leq\gamma<1$ ，即 $\delta_k\rightarrow0$ ，也就是在 $k\rightarrow\infty$ 的时候， $q_k(s,a)\rightarrow q_*(s,a)$ 。

3. 广义策略迭代

上述讨论需要知道p函数，动态规划方法需要一个由函数 $p = (s^{'}, r ∣ s, a)$ 表示的完整的环境模型。当该 $p$ 函数不可用时，策略迭代和值迭代方法就不能用于求解强化学习问题。在这种情况下，我们转向一类所谓的无模型方法(仍然在广义策略迭代的方案下运行)，使我们能够在没有模型的情况下找到最优策略。