强化学习——MDP框架的搭建

cjhcjq122108

已于 2023-11-28 18:13:45 修改

阅读量1k

点赞数 26

分类专栏：强化学习文章标签：人工智能算法机器学习

于 2023-11-28 18:09:18 首次发布

本文链接：https://blog.csdn.net/cjhcjq122108/article/details/134673665

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习框架

数学符号释义

$S$ 指状态（state）空间
$A$ 指动作（action）空间
$R$ 指reward奖励, $R_s =E[R_{t+1}|S_t=s]$
$P$ 指状态转移矩阵，其中的元素为： $P_{ss'}=P[S_{t+1}=s'|S_{t}=s]$
$\gamma$ 指折扣因子

马尔科夫链

简单的说：下一个所处的状态只取决于当前的状态

用数学语言描述： $P[S_{t+1}|S_{t}] = P[S_{t+1}|S_t,S_{t-1},S_{t-2}......S_1]$

好处就是：只要当前状态包含的信息足够多，我们就可以只使用当前的信息来推断出下一个状态。

状态+状态转移矩阵

首先我们仅引入 $S, P$ ，我们当前的策略可以理解为：随着 $P$ 矩阵记录的概率在各个状态之间转移。我们可以得到这样的一组马尔可夫决策链 $S_0,S_1,S_2......$

引入 $R,\gamma$ ， $\gamma \in (0,1)$

我们引入奖励函数，以及折扣因子。每当我们从一个状态转移到另一个状态时，我们的agent就会获得一份奖励（可正可负）。此时我们可以得到这样的一个马尔可夫过程： $S_0,R_1,S_1,R_2......$ ，这个过程叫做马尔可夫奖励过程。注意，此时我们的策略仍然是跟随P矩阵进行状态转移。

引入状态价值评估函数 $v (s)$ ，收益函数 $G_t$ ，贝尔曼方程 $v=R+\gamma Pv$

$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}.....$ ,代表从当前时刻起，依据现在的策略，我们预期获得的总收益。

$v(s)=E[G_t|S_t=s]$ ,评估当前状态，根据当前的策略，未来收获的期望。这个期望就是这个状态目前的价值。

我们可以看见，这里引入了折扣因子 $\gamma$ ,一方面这有利于 $G_t$ 收敛，另一方面也是考虑到未来的不确定性。

那么我们应该如何求出每个状态对应的 $v (s)$ 呢？由于状态的数量可以是无限的，状态之间的转移可以是循环的，所以顺序求解并不可行。这是我们引入贝尔曼方程来求解问题。 $v=R+\gamma Pv$ 是一个线性方程，可以直接求出 $v$ ,只要 $R, P$ 已知。

引入 $A$ 动作空间， $\pi(a|s)$ 策略

之前的模型中，我们都没有引入策略，仅仅是跟着 $P$ 矩阵走。现在我们引入策略，将模型变为MDP（马尔可夫决策过程）。

引入策略之后，我们需要对原来的一些参数作出修改：

1. $P_{ss'} \rightarrow P_{ss'}^a = P[S_{t+1}|S_t=s,A_t=a]$ 。意思是：在s状态下，选择动作a时，能转移到s’状态的概率。注意：这句话体现出一个关键点，选择一个动作之后，并不能百分百的转移到想去的状态，因为我们对于环境的观测是有限的，状态的转移还要受到环境的影响。

2. $R_s \rightarrow R_s^a = E[R_{t+1}|S_t=s,A_t=a]$

3. $\rightarrow v_\pi(s) = E_\pi[G_t|S_t=s]$

另外，我们要引入一些新的函数：

1. $\pi(a|s) = P[A_t=a|S_t=s]$

2. $P_{ss'}^\pi = \sum_{a \in A}P_{ss'}^a\pi(a|s)$ ，在策略 $\pi$ 的情况下，转移的概率。

3. $R^\pi_s=\sum_{a \in A}\pi(a|s)R^a_s$

4. $q_\pi(s,a) = E_\pi[G_t|S_t = s,A_t=a]$ ，用来衡量动作a的好坏。

有了上述的函数，我们就可以很好的衡量一个策略的好坏，例如：对于两个策略 $\pi,\pi'$ ，如果其中一个策略的所有状态的价值都大于等于另一个。那么该策略就是更好的策略。

问题是，我们如何计算呢？如何计算出一个策略下每个状态对应的价值函数呢？

$v_\pi(s),q_\pi(s,a)$ 的计算

首先我们来阐述两者之间的联系：

$v_\pi(s)=\sum_{a \in A}\pi(a|s)q_\pi(s,a)$ ， $q_\pi(s,a)=R_s^a+ \gamma \sum_{s' \in S}P_{ss'}^\pi v_\pi(s')$

不好理解的话，请各位画一幅图。一个圆圈代表初始状态，延伸出几根线代表有几个动作可以选择。每一个动作再延伸出几个圆圈代表所有可能的下一步状态。

其次再看看两者各自与自身的递推关系：

$v_\pi(s)=\sum_{a \in A}\pi(a|s)\big(R_s^a+ \gamma \sum_{s' \in S}P_{ss'}^\pi v_\pi(s')\big)$

$q_\pi(s,a)=R_s^a+ \gamma \sum_{s' \in S}P_{ss'}^\pi \sum_{a' \in A}\pi(a'|s')q_\pi(s',a')$

其实就是把之前两个式子相互带换一下。

现在我们知道两者的递推关系，接下来我们就可以开始计算 $v_\pi(s),q_\pi(s,a)$ 了。

计算的方法有很多，例如下一章节的动态规划算法。

有一个笨办法，我们可以写出贝尔曼方程，然后通过线性方程组算出来。不过计算量太大，一般采用其他的方法。

$v_(s),q_(s,a)$ 最优策略

利用之前提到的比较两个策略哪个更优的方法，我们可以得到最优策略。最优策略对应的状态价值函数，策略价值函数就以 $*$ 作为下标。至于两者关系，和上面一样。一般来说，如果我们得到了最优状态价值函数或者最优策略价值函数，我们就可以以此得出最优策略。

cjhcjq122108

关注

26
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
强化学习——MDP框架的搭建

简单的说：下一个所处的状态只取决于当前的状态用数学语言描述：P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]P[S_{t+1}|S_{t}] = P[S_{t+1}|S_t,S_{t-1},S_{t-2}......S_1]P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]好处就是：只要当前状态包含的信息足够多，我们就可以只使用当前的信息来推断出下一个状态。首先我们仅引入S,PS,PS,P，我们当前的策略可以理解为：随着PPP矩阵记录的
复制链接

扫一扫