【强化学习的数学原理】第四课：值迭代与策略迭代

最新推荐文章于 2024-07-25 23:26:35 发布

♚℡灬

最新推荐文章于 2024-07-25 23:26:35 发布

阅读量226

点赞数

分类专栏：强化学习文章标签：算法机器学习大数据

本文链接：https://blog.csdn.net/qq_44044341/article/details/134058580

版权

强化学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

【Value iteration algorithm（值迭代算法）】

$v_{k+1}=f\left(v_k\right)=\max _\pi\left(r_\pi+\gamma P_\pi v_k\right), \quad k=1,2,3 \ldots$

第一步（policy update）：当 $v_k$ 给出的时候解决 $\pi_{k+1}$
$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_k\right)$
第二步（value update）：利用当前的 $\pi_{k+1}$ 解决 $v_{k+1}$
$v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}} v_k$

问题： $v_k$ 是不是state value?

回答：不是 $v_{k}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}} v_k$ 这个公式才是贝尔曼公式是state value，但这里只是一个值用来进行迭代趋近的

✨policy update：

$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_k\right)$

$\pi_{k+1}(s)=\arg \max _\pi \sum_a \pi(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)\right)}_{q_k(s, a)}, s \in \mathcal{S}$

$a_k^*(s)=\arg \max _a q_k(a, s)$ 时其最优解为：
$\pi_{k+1}(a \mid s)=\left\{\begin{array}{cc} 1 & a=a_k^*(s) \\ 0 & a \neq a_k^*(s) \end{array}\right.$
由于它只选择最优的q-value所以 $\pi_{k+1}$ 叫贪婪策略

✨value update：

$v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}} v_k$

$v_{k+1}(s)=\sum_a \pi_{k+1}(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)\right)}_{q_k(s, a)}, \quad s \in \mathcal{S}$

由于 $\pi_{k+1}$ 为贪婪策略，所以 $v_{k+1}(s)=\max _a q_k(a, s)$

✨Value iteration algorithm伪代码：

$v_k(s) \rightarrow q_k(s, a) \rightarrow \text { greedy policy } \pi_{k+1}(a \mid s) \rightarrow \text { new value } v_{k+1}=\max _a q_k(s, a)$

伪代码：

初始化：对所有的 $(s, a)$ 有 $\mid s, a)$ 和 $p\left(s^{\prime} \mid s, a\right)$
目标：寻找最优的 state value 和 policy value 来解决贝尔曼最优公式
过程：假设 $\left\|v_k-v_{k-1}\right\|$ 未小于最小值
遍历所有的状态 $s$ ，对于每个状态 $\in \mathcal{S}$
对于每个动作 $\in \mathcal{A}(s)$ ，计算q-value： $q_k(s, a)=\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)$
选择最大的action value： $a_k^*(s)=\arg \max _a q_k(a, s)$
policy update： $\pi_{k+1}(a \mid s)=1$ if $a=a_k^*$ , and $\pi_{k+1}(a \mid s)=0$
value update： $v_{k+1}(s)=\max _a q_k(a, s)$

理解：首先对每个状态计算q-value，之后选择最大的action value表明我知道了如何行动。然后更新policy 再之后更新 value 然后一直重复直到找到最优解。

✨例子：

$r_{\text {boundary }}=r_{\text {forbidden }}=-1, r_{\text {target }}=1,\gamma=0.9$

在这里插入图片描述

【Policy iteration algorithm（策略迭代算法）】

$\pi_0 \stackrel{P E}{\longrightarrow} v_{\pi_0} \stackrel{P I}{\longrightarrow} \pi_1 \stackrel{P E}{\longrightarrow} v_{\pi_1} \stackrel{P I}{\longrightarrow} \pi_2 \stackrel{P E}{\longrightarrow} v_{\pi_2} \stackrel{P I}{\longrightarrow} \ldots$

初始化：随机给个策略 $\pi_0$
第一步（policy evaluation）：求解贝尔曼公式得到state value看策略如何
$v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k}$
第二步（policy improvement）：通过优化改变其策略为 $\pi_{k+1}$
$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_{\pi_k}\right)$

✨policy evaluation：

$v_{\pi_k}^{(j+1)}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k}^{(j)}, \quad j=0,1,2, \ldots$

$v_{\pi_k}^{(j+1)}(s)=\sum_a \pi_k(a \mid s)\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_{\pi_k}^{(j)}\left(s^{\prime}\right)\right), \quad s \in \mathcal{S}$

✨policy improvement：

$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_{\pi} v_{\pi_k}\right)$

$\pi_{k+1}(s)=\arg \max _\pi \sum_a \pi(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_{\pi_k}\left(s^{\prime}\right)\right)}_{q_{\pi_k}(s, a)}, \quad s \in \mathcal{S} \text {. }$

$q_{\pi_k}(s, a)$ 是策略 $\pi_k$ 下的 action value：
$a_k^*(s)=\arg \max _a q_{\pi_k}(a, s)$
其贪婪策略是：
$\pi_{k+1}(a \mid s)=\left\{\begin{array}{cl} 1 & a=a_k^*(s) \\ 0 & a \neq a_k^*(s) \end{array}\right.$

✨Policy iteration algorithm伪代码：

初始化：对所有的 $(s, a)$ 有 $\mid s, a)$ 和 $p\left(s^{\prime} \mid s, a\right)$ ，初始化 $\pi_0$
目标：寻找最优的state value 和 optimal policy
假设policy还没收敛，对于第k次：
- policy evaluation：
  - 给定初始猜测 $v_{\pi_k}^{(0)}$
  - 对于每个状态 $\in \mathcal{S}$ ， $v_{\pi_k}^{(j+1)}(s)=\sum_a \pi_k(a \mid s)\left[\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_{\pi_k}^{(j)}\left(s^{\prime}\right)\right]$
- policy improvement：
  - 遍历每个状态 $\in \mathcal{S}$
    - 遍历每个action， $\in \mathcal{A}(s)$ ： $q_{\pi_k}(s, a)=\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_{\pi_k}\left(s^{\prime}\right)$
    - 选择最大的 $a_k^*(s)=\arg \max _a q_{\pi_k}(s, a)$
    - $\pi_{k+1}(a \mid s)=1$ if $a=a_k^*$ , and $\pi_{k+1}(a \mid s)=0$

✨例子：

$r_{\text {boundary }}=-1, r_{\text {target }}=1,\gamma=0.9$

在这里插入图片描述

actions： $a_{\ell}, a_0, a_r$ 分别表示向左、原地、向右
目标：寻找最优policy

【Truncated policy iteration algorithm（截断策略迭代算法）】

✨value iteration 和 policy iteration比较：

policy iteration：

Policy iteration: $\pi_0 \stackrel{P E}{\longrightarrow} v_{\pi_0} \stackrel{P I}{\longrightarrow} \pi_1 \stackrel{P E}{\longrightarrow} v_{\pi_1} \stackrel{P I}{\longrightarrow} \pi_2 \stackrel{P E}{\longrightarrow} v_{\pi_2} \stackrel{P I}{\longrightarrow} \ldots$

policy evaluation(PE)：
$v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k}$
policy improvement(PI)：
$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_{\pi_k}\right)$

value iteration：

Value iteration: $\quad u_0 \stackrel{P U}{\longrightarrow} \pi_1^{\prime} \stackrel{V U}{\longrightarrow} u_1 \stackrel{P U}{\longrightarrow} \pi_2^{\prime} \stackrel{V U}{\longrightarrow} u_2 \stackrel{P U}{\longrightarrow} \ldots$

policy update(PU)：
$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_k\right)$
value update(VU)：
$v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}} v_k$

在这里插入图片描述

如图所示其前三部都是一样的。
第四步不一样：
- policy iteration： $v_{\pi_1}=r_{\pi_1}+\gamma P_{\pi_1} v_{\pi_1}$ ，需要进行内部迭代计算（贝尔曼公式迭代算法）
  $\begin{aligned} & v_{\pi_1}^{(0)}=v_0 \\ & v_{\pi_1}^{(1)}=r_{\pi_1}+\gamma P_{\pi_1} v_{\pi_1}^{(0)} \\ & v_{\pi_1}^{(2)}=r_{\pi_1}+\gamma P_{\pi_1} v_{\pi_1}^{(1)} \\ & \vdots \\ & v_{\pi_1}^{(j)}=r_{\pi_1}+\gamma P_{\pi_1} v_{\pi_1}^{(j-1)} \\ & \vdots \\ & v_{\pi_1}^{(\infty)}=r_{\pi_1}+\gamma P_{\pi_1} v_{\pi_1}^{(\infty)} \end{aligned}$
- value iteration： $v_1=r_{\pi_1}+\gamma P_{\pi_1} v_0$ ，只需要进行一部（正常计算）

✨Truncated policy iteration伪代码：

初始化：对所有的 $(s, a)$ 有 $\mid s, a)$ 和 $p\left(s^{\prime} \mid s, a\right)$ ，初始化 $\pi_0$
目标：寻找最优的state value 和 optimal policy
假设policy还没收敛，对于第k次：
- policy evaluation：
  - 初始化： $v_k^{(0)}=v_{k-1}$ ，最大迭代次数为 $j_{truncate}$
  - 当 $j < j_{truncate}$
    - 对每个状态 $\in \mathcal{S}$ ： $v_k^{(j+1)}(s)=\sum_a \pi_k(a \mid s)\left[\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k^{(j)}\left(s^{\prime}\right)\right]$
  - 设 $v_k=v_k^{\left(j_{\text {truncate }}\right)}$
- policy improvement：
  - 对每个状态 $\in \mathcal{S}$
    - 对每个action $\in \mathcal{A}(s)$ ： $q_k(s, a)=\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)$
    - $a_k^*(s)=\arg \max _a q_k(s, a)$
    - $\pi_{k+1}(a \mid s)=1$ if $a=a_k^*$ , 并且 $\pi_{k+1}(a \mid s)=0$

在这里插入图片描述

通过这个图能看出来三种的效果

♚℡灬

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【强化学习的数学原理】第四课：值迭代与策略迭代

理解：首先对每个状态计算q-value，之后选择最大的action value表明我知道了如何行动。第一步（policy evaluation）：求解贝尔曼公式得到state value看策略如何。这个公式才是贝尔曼公式是state value，但这里只是一个值用来进行迭代趋近的。第二步（policy improvement）：通过优化改变其策略为。第二步（value update）：利用当前的。，需要进行内部迭代计算（贝尔曼公式迭代算法）第一步（policy update）：当。初始化：随机给个策略。
复制链接

扫一扫

专栏目录