【RL】2.马尔可夫决策过程

最新推荐文章于 2023-05-31 14:18:42 发布

BevnWu

最新推荐文章于 2023-05-31 14:18:42 发布

阅读量329

点赞数 1

分类专栏：强化学习_BW 文章标签：强化学习

BevanWu所有

本文链接：https://blog.csdn.net/qq_41407979/article/details/109246159

版权

这篇博客介绍了马尔可夫决策过程（MDP），包括马尔可夫性质、Markov Chain、Markov Reward Process和MDP的基本概念。讨论了折扣因子γ的意义，并通过例子解释了状态价值函数V(s)的计算。同时，还涵盖了Policy Evaluation、Policy iteration和Value iteration在MDP中的应用。

摘要由CSDN通过智能技术生成

RL-Ch2-马尔可夫决策过程

前情回顾

RL Agent的核心元素为model，value，policy。

课程大纲

Markov Chain–>Markov Reward Process–>Markov Decision Process
Policy evaluation in MDP
Policy iteration and value iteration

引入

上章图1的RL过程可转化为MDP，但是MDP下的环境是完全可观测的，很多时候环境不完全可观测时也可通过一些方法转化为MDP。

Markov性质

Markov Property指的是未来的状态只取决于当下的状态，而独立于过去的状态。

令历史状态序列为 $h_t={S_1,S_2,...,S_t}$ ，若 $S_t$ 满足Markov Property，则有如下式子成立
$P(S_{t+1}|S_t)=P(S_{t+1}|h_t)$

$P(S_{t+1}|S_t,a_t)=P(S_{t+1}|h_t,a_t)$

Markov Chain (S,P)

图1为状态转换图，图中包含有状态(State)和转移矩阵(Probability)。

在这里插入图片描述

图1 二维的Markov Chain

状态转移矩阵可写为
$P=[p(s_{t+1})=s|s_t=s]=\left[ \begin{matrix} p(s_1|s_1)&...&p(s_N|s_1)\\ p(s_1|s_2)&...&p(s_N|s_2)\\ \vdots&\ddots&\vdots\\ p(s_1|s_N)&...&p(s_N|s_N) \end{matrix} \right]$

状态转换图中的一个链条即为Markov Chain。

Markov Reward Process(MRP) (S,P,R, $\gamma$ )

MRP=Markov Chain+Reward

Markov Chain包含State和transition Probability matrix，而Reward包含Reward function $R[s_t=s]=\mathbb{E}(r_t|s_t=s)$ 和折扣因子 $\gamma$ 。

Horizon

Markov (Reward) Process分为有限步和无限步，其中记有限步中的序列的最大时间步数为Horizon。

Return

记从当前时间步t->Horizon的收益加权和为Reward，计算公式如下
$G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T$

状态价值 $V_t(s)$

记对未来可能获得价值的当前表现，即状态s时当前时间步t的期望收益为状态价值 $V_t(s)$ 。
$V_t(s)=\mathbb{E}(G_t|s_t=s)=\mathbb{E}(R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T|s_t=s)$
上式的矩阵形式为