【强化学习】-2.马尔可夫决策过程MDP

glitterosu

已于 2024-08-06 18:09:31 修改

阅读量952

点赞数 20

分类专栏：强化学习文章标签：人工智能学习机器学习

于 2024-08-01 17:19:34 首次发布

本文链接：https://blog.csdn.net/glitterosu/article/details/140847801

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1. 马尔可夫决策过程(MDPs)简介

MDPs是描述强化学习问题环境的形式化框架，当环境完全可观测。它们在马尔可夫过程和马尔可夫奖励过程的基础上增加了动作。

MDPs可以表示广泛的强化学习问题,如：

最优控制主要是解决连续型的MDPs
部分可观测的问题可以转化成MDPs
臂赌博机问题

2. 马尔可夫性质

给定现在,未来与过去无关

定义：

一个状态 $S_t$ 是马尔可夫当且仅当 $P(S_{t+1}|S_t)=P[S_{t+1}|S_1,...S_t)$

马尔可夫过程由状态空间S和转移概率矩阵P定义,状态转移矩阵P定义了在状态之间转移的概率. 当前状态捕捉了过去的所有相关信息。一旦状态已知，历史可以不考虑。

马尔可夫过程

定义：

马尔可夫过程表示为<S,P>

S是一个（有限）状态集合
状态转移矩阵P定义了在状态之间转移的概率 $P_{ss'}=P[S_{t+1}=s'|S_t=s)$

3. 马尔可夫奖励过程(MRPs)

MRPs在马尔可夫过程的基础上增加了奖励函数R和折扣因子γ

马尔可夫奖励过程表示为<S,P,R,γ>

S是一个（有限）状态集合
状态转移矩阵P定义了在状态之间转移的概率 $P_{ss'}=P[S_{t+1}=s'|S_t=s)$
R 是一个奖励函数， $R_s=E[R_{t+1}|S_t=s]$
γ 为折扣系数， $γ\in[0,1]$

回报 $G_t$

$G_t$ 是从某个状态开始的总折扣奖励,
$G_t=R_{t+1}+\gamma R_{t+2}+...=\sum_{k=0}^\infty \gamma^kR_{t+k+1}$

价值函数V(s)

V(s)是从某个状态开始的期望回报, $v(s)=E[G_{t}|S_t=s]$

贝尔曼方程

贝尔曼方程将一个状态的价值与即时奖励和后续状态的折扣价值联系起来

$v(s)=E[R_{t+1}+\gamma v(S_t+1)|S_t=s]$

4. 马尔可夫决策过程(MDPs)

4.1 MDP

MDPs在MRPs的基础上增加了动作空间A,

马尔可夫奖励过程表示为<S,A,P,R,γ>

S是一个（有限）状态集合
> - A 是一个有限动作集合
状态转移矩阵P定义了在状态之间转移的概率 $P^{a}_{ss'}=P[S_{t+1}=s'|S_t=s,A_t=a)$
R 是一个奖励函数， $R^a_s=E[R_{t+1}|S_t=s,A_t=a]$
γ 为折扣系数， $γ\in[0,1]$