RL(Reinforcement Learning)强化学习（1）马尔科夫过程（MP）、马尔科夫奖励过程(MRP)、马尔科夫决策过程(MDP)

最新推荐文章于 2024-07-19 13:27:45 发布

SpadeA_Iverxin

最新推荐文章于 2024-07-19 13:27:45 发布

阅读量999

点赞数 4

分类专栏：论文阅读文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/103706203

版权

论文阅读专栏收录该内容

32 篇文章 5 订阅

订阅专栏

MP/MRP/MDP

文章目录

MP/MRP/MDP

一、Markov process马尔科夫过程

一些概念：

马尔科夫性：在t+1时刻的状态只与t有关，而与其他无关。

马尔科夫过程/马尔科夫链：如果某个随机过程的每个状态都具备马尔可夫性，那么就认为这个过程是马尔科夫过程。

明天的天气只和今天的天气有关，和之前的天气没有任何关系。这就是具备马尔可夫性, 每一天都是这样，这个一天接一天的过程就是马尔科夫过程

状态转移概率矩阵：用来记录状态之间转换概率的矩阵。这个矩阵行和为1。 $P_{i,j}$ 代表由状态i到状态j的概率。

状态转移矩阵对于一个状态空间来说只有一个(如果转移概率不变)。因为它包含了所有状态之间转移的概率

所以一个马尔科夫过程可以用<S,P>来表示，其中S是状态，P是该状态下的转移到其他状态的概率矩阵。
在这里插入图片描述

上图是一个马尔科夫过程，各个状态之间的转化概率已经标出，其中sleep是一个终止状态

状态序列(episode)：假设当前状态为Class1(C1)
Class1 - Class2 - Sleep
C1-C2-C3-Pass-Sleep
等就是状态序列。

完整状态序列：一个状态序列最后一个状态是终止状态时。

二、马尔科夫奖励过程（Markov reward process, MRP）

概念

MRP和马尔科夫过程的叙别就是加入了一个奖励的过程。
马尔科夫过程是c参数<S,P>， MRP过程是<M,P,R, $\gamma$ >

S有限的状态集，状态空间
P 集合中状态转移概率矩阵。
R 奖励函数, $R_s = E[R_{t+1}|S_t = s]$ 。 t时刻，状态S=s，s状态下的奖励值 $R_s$ 是由转换到下一t+1时刻下的状态的奖励值 $R_{t+1}$ 均值决定的。由环境确定。比如老师想要较早的让同学通过考试，就在pass设置较高的奖励，其他的较低。
简单来说就是当前的奖励值，是由未来的（之后的）奖励值决定的。
$\gamma$ 衰减因子，在0和1之间。

收获/回报(return)： $G_t = R_{t+1}+\gamma R_{t+2}+...$
是马尔科夫奖励过程从某个状态 $S_t$ 开始知道终止状态的所有的奖励的带衰减的和。

$\gamma$ 如果接近0，意思是更关注眼前的奖励
$\gamma$ 如果接近1，意思是更关注长远的奖励

每个状态都对应了一个return（回报或收获）。间接反映了这个状态的重要程度。
那么出现了一个问题，就是同一个状态作为起点，会有很多的状态序列，而不同的状态序列所计算出来的收获return也不同，这有如何评价呢？
使用价值来衡量：
价值Value是马尔科夫奖励过程中**收获/回报(return)**的数学期望。

$v(s) = E[G_t | S_t = s ];$
某个状态的价值是从该状态开始按照状态转移概率矩阵进行采样生成的一些列的状态序列，每个状态序列都计算收获，最终对该状态所有的收获取期望, 得到一个平均的收获。
可以准确的翻译某一个状态的重要程度。

价值函数: 一个给出一定状态就能够得到这个状态的价值的函数。建立了从状态到价值的映射

贝尔曼方程产生的推导

但是，通过计算收获的平均值来求解状态的价值是不可取的。因为对于马尔科夫过程一个状态可能有无穷多个状态序列，无法计算。
在t时刻，状态s的价值函数:

$[G_t | S_t =s ] \\ =E[R_{t+1} + \gamma R[t+2] + \gamma^2R_{t+3} ... | S_t = s ] \\ =E[R_{t+1} + \gamma (R[t+2] + \gamma R_{t+3} ... )| S_t = s ] \\ =E[R_{t+1} + \gamma G_{t+1} | S_t = s ] \\ =E[R_{t+1} + \gamma v(S_{t+1})|S_t = s]$

可以得到等式

$v(s)=E[R_{t+1} + \gamma v(S_{t+1})|S_t = s]$
进一步， $R_{t+1}$ 期望是本身，每次离开同一个状态所得到的奖励都是一个固定的值
下一个时刻的状态根据概率转移矩阵的概率进行变化，所以下一时刻状态价值的期望也要乘以概率

$R_s + \gamma \sum_{s' \in S}P_{ss'}v(s')$

$R_s$ 该状态的奖励
$\gamma$ 衰减比
$P_{ss'}$ 状态s到状态s’的概率
v(s’) 下一状态的价值
这个方程就是马尔科夫奖励过程(MRP)中的贝尔曼方程（Bellman equation）

贝尔曼方程如果写成矩阵的形式，可以直接求解。但是一般这类问题时间复杂度都是3次方，直接求解不太现实。
在这里插入图片描述

三、马尔科夫决策过程

马尔科夫奖励过程能够评定某些状态的价值，但是强化学习还需要对行为进行选择，所以引出马尔科夫决策过程(Markov decision process,MDP)
MDP是<S, A, P, R, $\gamma$ >

S 有限状态集
A有限的行为集
P 基于行为的状态转移概率
R 状态行为奖励函数
$\gamma$ 衰减因子
$\gamma$ 衰减因子

回忆：MRP是<S, P, R, $g a m m a$ >，多了个Action

马尔科夫决策过程的奖励R、状态转移概率P都和行为A直接相关。在相同的状态下，取不同的行为得到的奖励是不一样的。
在这里插入图片描述

相同的图：
在这里插入图片描述

如上图，在不同的状态选择不同的动作行为，会得到不同的奖励，黑点是表示行为

策略：在某个状态下，从行为集中选择一个行为的依据/方法，叫做策略。用 $\pi$ 表示

$\pi(a|s) = P[A_t = a | S_t = s]$
策略是基于行为集合的一个概率分布

与当前状态有关，和历史状态无关
策略一般认为是静态的，描述个体产生行为的依据，状态的改变不会引起策略的改变。
个体依在同一个状态使用相同的策略也会产生不同的行为，因为是一个概率分布

随机策略：随机选择行为

好，从头捋一下：
对于一个MDP：M=<S,A,P,R, $\gamma$ >和一个Policy(策略) $\pi$ ：
状态序列(episod): S1, S2, S3 … 是一个马尔科夫过程<S, $P_\pi$ > （基于策略的，所以有pi的下标）
S1, R2, S2, R3, S3, R4… 是一个符合马尔科夫奖励过程<S, $P_\pi, R_\pi, \gamma$ >