马尔可夫过程||马尔可夫奖励过程||马尔可夫决策过程——基本概念汇总

最新推荐文章于 2024-05-13 21:16:04 发布

@Duang~

最新推荐文章于 2024-05-13 21:16:04 发布

阅读量184

点赞数

分类专栏：机器学习文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/meishuren/article/details/133912305

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

马尔可夫过程MP：(S,P)

马尔可夫奖励过程MRP：(S,P,R,γ)

马尔可夫决策过程MDP：(S,A,P,R,γ)

马尔可夫过程 MP

马尔科夫性：下一时刻状态只与当前时刻状态有关，与之前状态无关。

状态转移矩阵：定义了状态 $s$ 到其后所有后继状态 $s^{\prime}$ 的转移概率。

状态转移概率： $P_{ss^{\prime}}=P[S_{t+1}=s^{\prime}|S_{t}=s]$

$\left.P=\left[\begin{matrix}P_{11}\ldots P_{1n} \\ \\ P_{n1}\ldots P_{nn}\end{matrix}\right.\right]$

矩阵中每行元素总和为1。

马尔可夫过程可分为三类：

1）时间、状态都离散——马尔科夫链

2）时间连续、状态离散——连续时间的马尔科夫链

3）时间、状态都连续——马尔可夫过程

马尔科夫链由(S,P)构成，S为有限状态的集合，P为状态转移矩阵 $P_{ss^{\prime}}$ 。

幕：马尔科夫链的子序列，从初始状态到终止状态。

马尔可夫奖励过程 MRP

由(S,P,R,γ)构成，

$R_s$ 是奖励函数， $R_s=E[R_{t+1}|s_t=s]$

γ是折扣因子， $\gamma\in[0,1]$

回报：在一个马尔可夫过程中，从 t 时刻状态 $s_t$ 开始，直到终止状态，所有奖励的衰减之和 $G_t$ 称为回报。

（当前价值） $G_t=R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+\ldots=\sum_{k=0}^{\infty}\gamma ^{k}R_{t+k+1}$

$\gamma=0$ 时，表示只考虑当前收益。

价值函数：一个状态的期望回报。

（长远价值） $v_{(s)}=E[G_{t}|S_{t}=s]$

贝尔曼方程：(用于求解 $v_{(s)}$ ）

$v_{(s)}=E[R_{t+1}+\gamma v_{(s_{t+1})}\mid S_t=s]$

$v_{(s)}=R_{s}+\gamma\sum_{s^{\prime}\in S}p_{ss^{\prime}}v_{(S^{\prime})}$

矩阵形式：

$\left.\left[\begin{matrix}v_{(1)} \\ \vdots \\ v_{(n)}\end{matrix}\right.\right]=\left[\begin{matrix}R_1 \\ \vdots \\ R_n\end{matrix}\right]+\gamma\left[\begin{matrix}P_{11}\cdots & P_{1n} \\ \vdots & \vdots \\ P_{n1}\cdots & P_{nn}\end{matrix}\right]\left[\begin{matrix}v_{(1)} \\ \vdots \\ v_{(n)}\end{matrix}\right]$