强化学习马尔科夫决策过程（价值迭代、策略迭代、雅克比迭代、蒙特卡洛）

好奇小圈

已于 2022-11-23 20:54:10 修改

阅读量1.9k

点赞数 6

分类专栏：算法文章标签：算法

于 2022-11-22 23:48:19 首次发布

本文链接：https://blog.csdn.net/lbwnbdedede/article/details/127992440

版权

算法专栏收录该内容

18 篇文章 0 订阅

订阅专栏

一、马尔科夫过程Markov Decision Process（MDP）

1.简介

定义：无记忆的随机过程。

2、Markov 特性

1.历史状态h_t={s₁,s₂,s₃,……,s_t}
2.状态s_t有且仅有：
p ( s_t+1 | s_t )=p ( s_t+1 | h_t )
p ( s_t+1 | s_t , a_t )=p ( s_t+1 | h_t , a_t )
3.“考虑到现在，未来是独立于过去的”

3、Markov 奖励过程

符号表示

有四个符号 $< S, P, R, γ >$
$S$ ：有限状态集合；
$P$ ：状态转移概率矩阵 $P_{ss'}=p ( s_{t+1} = s' | s_t = s )$ ；表现为，既当前状态为 $s_t=s$ 时，下一个状态变为 $s_{t+1}= s'$ 的概率。
在这里插入图片描述
$R$ ：奖励函数 $R_S=E[R_{t+1}|S_t=s]$ ，既状态单次转换取得的收益；如下图所示

$γ$ ：折扣因子/衰减系数 $γ \in [0, 1]$ 。

回报： $G_t$ 是从时间 $t$ 开始的总折扣奖励，如下式
$G_t=R_{t+1}+γR_{t+2}+γ^{2}R_{t+3}+...=\sum_{k=0}^{\infty}{γ^{k}R_{t+k+1}}$
值函数： $V (s)$ 表示一个状态 $s$ 的长期价值 $V(s)=E[G_t|S_t=s]$ ，如下图所示
在这里插入图片描述

在这里插入图片描述

MRPs的贝尔曼方程

已知，
$G_t=R_{t+1}+γG(S_{t+1})$
可得，
$V(s)=E[R_{t+1}+γV(S_{t+1})|S_t=s]$
已知，
$R_S=E[R_{t+1}|S_t=S] \\ P_{ss'}=P[S_{t+1}=s'|S_t=s]$
可得，
$V(s)=R_S+γ\sum_{s'∈S}P_{ss'}V(s')$
矩阵形式如下，
在这里插入图片描述
$V=R+γPV\\ (1-γP)V=R\\ V=(1-γP)^{-1}R$
常用求解方法有动态规划、蒙特卡洛评估、时序差分学习等。

4、Markov决策过程

符号表示

有五个符号 $< S, A, P, R, γ >$
$S$ ：有限状态集合；
$A$ ：有限动作集合；
$P$ ：状态转移概率矩阵 $P_{ss'}^{a}=p (s_{t+1} = s' | s_t = s,A_t=a)$ ；状态转移矩阵 P 表现为，既当前状态为 $s_t=s$ 时，下一个状态变为 $s_{t+1}= s'$ 的概率。
$R$ ：奖励函数 $R_S^{a}=E[R_{t+1}|S_t=s,A_t=a]$ ，既状态单次转换取得的收益；
$γ$ ：折扣因子/衰减系数 $γ \in [0, 1]$ 。
策略： $π$ 为给定状态的动作分布 $π(a|s)=P[A_t=a|S_t=s]$ 。
其中策略依赖于当前状态（无关历史）；也是固定的（无关时间）， $A_t\thicksim π(\cdot|S_t)$ ，任意 $t > 0$

转化

给定一个Markov决策过程 $M = < S, A, P, R, γ >$ 和策略 $π$ ，可以转化为Markov过程 $< S, P >$ 和Markov奖励过程 $< S, P, R, γ >$
$P_{s,s'}^π=\sum_{a∈A}{\pi (a|s)P_{s,s'}^a}\\ R_{s}^\pi=\sum_{a∈A}{\pi (a|s)}R_{s}^a$
状态值函数： $V(s)=E[G_t|S_t=s]$ 。
动作值函数： $q_\pi(s,a)=E_\pi[G_t|S_t=s,A_t=a]$ 。

MRPs的贝尔曼方程

已知，
$G_t=R_{t+1}+γG(S_{t+1})$
状态值函数：
$V(s)=E[R_{t+1}+γV(S_{t+1})|S_t=s]$
动作值函数
$q_\pi(s,a)=E[R_{t+1}+γq_\pi(s_{t+1},a_{t+1})|S_t=s,A_t=a]$

在这里插入图片描述

优化问题

最优状态值函数
$v_*(s)=\max_\pi v_\pi(s)$
最优动作值函数
$q_*(s,a)=\max_\pi q_\pi(s,a)$
最优策略
存在一个最优策略，使得
$\pi_*≥any\pi$
所有最优策略都能取得最优状态、动作值函数
注：若 $v_{\pi'}(s)≥v_{\pi}(s)$ 则 $\pi'＞\pi$
$\pi_*(a|s)= \left \{ \begin{array}{ll} 1, & if a = \argmax_{a∈A} q_*(s,a)\\ 0, & otherwise \end{array} \right.$

贝尔曼最优方程

目标为，
在这里插入图片描述
得到迭代式，

求解方案有：值迭代、策略迭代、Q-Learning、Sarsa等

二、价值迭代求解

1、回顾

策略：是给定状态的动作分布 $\pi(a|s)=P[A_t=a|S_t=s]$ 随机变量，其中策略依赖于当前状态（无关历史）；也是固定的（无关时间）， $A_t\thicksim π(\cdot|S_t)$ ，任意 $t > 0$

2、算法

算法参数：小阈值 $\theta>0$ ；初始化 $V (s)$ ，初值为0。

Loop：
$\triangle \gets 0$
Loop for each $s \in S$ :
$\gets V(s)$
$\gets \max_a \sum_{s',r}p(s',r|s,a)[r+γV(s')]$
$\triangle \gets \max (\triangle,|v-V(s)|)$
until $\triangle < \theta$

输出确定的策略， $\pi \approx \pi_*$ ， $\pi(s)=\argmax_a \sum_{s',r} p(s',r|s,s)[r+γV(s')]$

3、案例

案例1

在这里插入图片描述
此处R为-1，γ为 1。

“公主”处没有下一状态，因此V(s)=0。

最终收敛为，

案例2

在这里插入图片描述
$\boldsymbol{V}_\pi {(s)}=\sum_{a \in A} \pi(a \mid s)\left[R_s^a+\gamma \sum_{s^{\prime} \in S} P_{s s^{\prime}}^a V_\pi\left(s^{\prime}\right)\right]$
可得，
$\begin{array}{ll} V_\pi\left({S}_1\right)=40 \%\left(5+0.5 V_\pi\left(S_2\right)\right)+60 \%\left(12+0.5 V_\pi\left(S_4\right)\right) & {V}_\pi\left({S}_6\right)=100 \%\left(0+0.5 V_\pi\left(S_5\right)\right) \\ {V}_\pi\left({S}_2\right)=60 \%\left(-5+0.5 V_\pi\left(S_3\right)\right)+40 \%\left(0+0.5 V_\pi\left(S_5\right)\right) & {V}_\pi\left({S}_5\right)=100 \%\left(5+0.5 V_\pi\left(S_4\right)\right) \\ {V}_\pi\left({S}_3\right)=100 \%\left(10+0.5 V_\pi\left(S_6\right)\right) & {V}_\pi\left({S}_4\right)=0 \end{array}$
到的结果，
在这里插入图片描述
计算最优价值，

三、策略迭代求解

1、回顾

状态价值函数的贝尔曼最优方程
$v_*(s)=\max _a\left[R_s^a+\gamma \sum_{s^{\prime} \in S} P_{s s^{\prime}}^a v_*\left(s^{\prime}\right)\right]$
动作价值函数的贝尔曼最优方程
${q}_*(s, a)={R}_s^a+\gamma \sum_{s^{\prime} \in S} {P}_{s s^{\prime}}^a \max _{a^{\prime}} {q}_*\left(s^{\prime}, a^{\prime}\right)$

2、算法

初始化：
小阈值 $\theta>0$ ；初始化 $V (s)$ ，初值可以为0；初始化 $π (s)$ 。

策略评估：
Loop：
$\triangle \gets 0$
Loop for each $s \in S$ ：
$\gets V(s)$
$\gets \max_a \sum_{s',r}p(s',r|s,a)[r+γV(s')]$
$\triangle \gets \max (\triangle,|v-V(s)|)$
until $\triangle < \theta$

策略提升：
$p o l i c y - s t a b l e \leftarrow t r u e$
For each $s \in S$ ：
$old-action←\pi(s)$
$\pi(s)←\argmax_a \sum_{s',r} p(s',r|s,s)[r+γV(s')]$
If $\ne \pi(s)$ ,then $p o l i c e - s t a b l e \leftarrow f a l s e$
If $p o l i c e - s t a b l e$ ,then stop and return $\approx v$ and $\pi \approx v\pi_*$ ;else go to “策略评估”

3、案例

案例1

此时，
state：王子的位置
action：向四个方向走一格（走出界返回原位，但消耗体力）
reward：体力损耗
discount factor：γ=1
policy：均匀随机策略
策略评估：
在这里插入图片描述
最终结果（取三次迭代，因为γ为一无法收敛）

策略提升：

在这里插入图片描述
得到结果，

在这里插入图片描述
然后再返回“策略评估”，如此往复，直至“策略”收敛。

四、雅克比迭代法解决自举问题

1、自举问题

根据上文，可知如下公式：
在这里插入图片描述
网格上每个点表示各自的状态；策略 $π$ 采取均匀随机策略，因此每个方向都为25%； $R$ 为即时奖励；由于我们为确定性策略，因此 $P$ 这一项都为1,。

问题出现了，想要计算蓝色，那么就要求黄色；想要求黄色，就需要计算蓝色。这样“你中有我，我中有你”，的问题，便是“自举问题”。

$\begin{gathered} V\left(s_1\right)=1+0.25 V\left(s_2\right)+0.25 V\left(s_3\right)+0.25 V\left(s_4\right)+0.25 V\left(s_5\right) \\ V\left(s_2\right)=1+0.25 V\left(s_1\right)+0.25 V\left(s_6\right)+0.25 V\left(s_7\right)+0.25 V\left(s_8\right) \\ V\left(s_3\right)=1+0.25 V\left(s_1\right)+0.25 V\left(s_7\right)+0.25 V\left(s_9\right)+0.25 V\left(s_{10}\right) \\ \ldots . . . \\ \boldsymbol{V}\left(\boldsymbol{s}_{\boldsymbol{n}}\right)=\boldsymbol{b}+\boldsymbol{a}_{\mathbf{1}} \boldsymbol{V}\left(\boldsymbol{s}_{\boldsymbol{i}}\right)+\boldsymbol{a}_{\mathbf{2}} \boldsymbol{V}\left(\boldsymbol{s}_{\boldsymbol{j}}\right)+\boldsymbol{a}_{\mathbf{3}} \boldsymbol{V}\left(\boldsymbol{s}_{\boldsymbol{k}}\right)+\boldsymbol{a}_{\boldsymbol{4}} \boldsymbol{V}\left(\boldsymbol{s}_{\boldsymbol{l}}\right) \end{gathered}$
由此可以得到矩阵形式：
在这里插入图片描述

2、雅克比迭代

列主原消去法

为线性代数的基本功，只适用于低阶稠密矩阵，故不再做赘述，案例如下：
$\begin{aligned} &{\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 8 \end{array}\right]\left[\begin{array}{l} x_1 \\ x_2 \\ x_3 \end{array}\right]=\left[\begin{array}{l} b_1 \\ b_2 \\ b_3 \end{array}\right]} \\ &7 x_1+8 x_2+8 x_3=b_3 \\ &0 x_1+\frac{6}{7} x_2+\frac{13}{7} x_3=b_1-\frac{1}{7} b_3 \\ &0 x_1+0 x_2+\frac{7}{14} x_3=b_1-\frac{1}{2} b_2-\frac{3}{7} b_3 \end{aligned}$

雅克比迭代法

在这里插入图片描述
将上图右上角式子进一步简化，得到迭代式（直至收敛），
$X \leftarrow J X + f$
其中，谱半径 $ρ (J) < 1$ 。谱半径定义为：一个矩阵中特征值绝对值最大的那个值。

五、蒙特卡洛解决无模型强化学习

1、无模型

Markov决策过程中有五个符号 $< S, A, P, R, γ >$
$S$ ：有限状态集合；
$A$ ：有限动作集合；
$P$ ：状态转移概率矩阵 $P_{ss'}^{a}=p (s_{t+1} = s' | s_t = s,A_t=a)$ ；
$R$ ：奖励函数 $R_S^{a}=E[R_{t+1}|S_t=s,A_t=a]$ ；
$γ$ ：折扣因子/衰减系数 $γ \in [0, 1]$ 。
此时只知道 $S$ 和 $A$ ，其他参数未知。

2、优势

（1）能从环境中交互学习，在模拟实验中学习，无环境模型。
（2）可以只聚焦于一个子状态空间，例如我们感兴趣的状态；方法理论上需要遍历所有状态空间
（3）不需要从其他值的模拟中迭代，不自举，如果马尔可夫属性不够，可以受到更小的影响

3、原理

经验平均

在这里插入图片描述
求平均：
$\left.\begin{array}{l} Q_1\left(s_0\right)=R\left(a \mid s_0\right)+\gamma R\left(a \mid s_1\right)+\gamma^2 R\left(a \mid s_2\right) \\ Q_2\left(s_0\right)=R\left(a \mid s_0\right)+\gamma R\left(a \mid s_1\right) \end{array}\right\} Q\left(s_0\right)=\frac{Q_1\left(s_0\right)+Q_2\left(s_0\right)}{2}$

首次访问/每次访问

如图，如果每次s1出现都记录，则被称为every-visit（每次访问）；只记录第一次出现，则被称为first-visit（首次访问）。
在这里插入图片描述

同策略/异策略

行为策略 $μ$ （用于采样）
一般是温和的，保证一定的探索性。 $\varepsilon-greedy策略$ 如下
$\pi(a \mid s)=\left\{\begin{array}{cl} 1-\varepsilon+\frac{\varepsilon}{|A(s)|} & a=\operatorname{argmax}_a Q(s, a) \\ \frac{\varepsilon}{|A(s)|} & \text { else } \end{array} \right.$
目标策略 $π$ （用于输出）
可温和可激进，是行为策略的子集。 $g r e e d y 策略$ 如下
$\pi(a \mid s)= \begin{cases}1 & a=\operatorname{argmax}_a Q(s, a) \\ 0 & \text { else }\end{cases}$
在这里插入图片描述

上图左侧为同策略（on-policy），右侧为异策略（off-policy）。