强化学习之马尔科夫过程

最新推荐文章于 2024-08-11 18:21:52 发布

静_流

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量4.9k

点赞数 8

分类专栏：【算法】强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hiwallace/article/details/81189842

版权

马尔科夫决策过程（MDPs）是强化学习的基础，它描述了一个无记忆的随机过程，用于建模状态转移和奖励机制。MDPs包含状态、动作、状态转移概率、奖励函数和衰减因子。值函数是MDPs的关键概念，通过贝尔曼方程进行计算。强化学习的目标是找到最优策略，最大化长期回报。MDPs可以拓展到无穷或连续状态、部分可观测和无衰减场景。

摘要由CSDN通过智能技术生成

马尔可夫过程

马尔可夫决策过程（Markov Decision Processes,MDPs）是对强化学习问题的数学描述。几乎所有的RL问题都能用MDPs来表述：

最优控制问题可以描述为连续MDPs
部分观测环境可以转化成POMDPs
赌博机问题是只有一个状态的MDPs

本文中介绍的MDPs是在全观测的环境下进行的！

马尔科夫性

如果在t时刻的状态 $S_t$ 满足如下等式，那么这个状态被称为马尔科夫状态，或者说该状态满足马尔科夫性。

P [S t + 1 | S t] = P [S t + 1 | S 1, . . ., S t]

$P[S_{t+1}|S_t]=P[S_{t+1}|S_1,...,S_t]$

状态 $S_t$ 包含了所有历史相关信息，或者说历史的所有状态的相关信息都在当前状态 $S_t$ 上体现出来

一旦 $S_t$ 知道了，那么 $S_1,S_2,...,S_{t-1}$ 都可以被抛弃

数学上可以认为状态是将来的充分统计量，这里要求环境全观测，比如下棋时，只关心当前局面，打俄罗斯方块时，只关心当前屏幕

状态转移矩阵

状态转移概率指从一个马尔科夫状态s跳转到后继状态 $s^{'}$ 的概率

P s s' = P [S t + 1 = s' | S t = s]

$P_{ss^{'}}=P[S_{t+1}=s^{'}|S_t=s]$
所有的状态组成行，所有的后继状态组成列，我们得到状态转移矩阵

P = ⎡ ⎣ ⎢ ⎢ p 11 ⋮ p m 1 \dots ⋱ \dots p 1 n ⋮ p m n ⎤ ⎦ ⎥ ⎥

$P=\begin{bmatrix} {p_{11}}&{\cdots}&{p_{1n}}\\ {\vdots}&{\ddots}&{\vdots}\\ {p_{m1}}&{\cdots}&{p_{mn}}\\ \end{bmatrix}$
n表示状态的个数，每行元素相加和等于1

状态转移函数

我们可以将状态转移概率写成函数形式

P (s' | s) = P [S t + 1 = s' | S t = s]

$P(s^{'}|s)=P[S_{t+1}=s^{'}|S_t=s]$

$\sum_{s^{'}}P(s^{'}|s)=1$
状态数量太多或者无穷大（连续状态）时，更适合使用状态转移函数，此时 $\int _{s^{'}}P(s^{'}|s)=1$

马尔可夫过程（Markov process,MP）

马尔可夫过程是一个无记忆的随机过程，即一些马尔可夫状态的序列，马尔可夫过程可以由一个二元组来定义 < S,P >，S表示状态的集合，P描述状态转移矩阵
注：虽然我们不知道P的具体值，但是通常我们假设P存在且稳定，当P不稳定时，不稳定环境在线学习，快速学习

这里写图片描述

如上图：

一个学生每天需要学习三个科目，然后通过测验
有的可能智学苑两个科目之后直接睡觉
一旦挂科有可能需要重新学习某些科目
该过程用椭圆表示普通状态，每条线上的数字表示从一个状态跳转到另一个状态的概率
方块表示终止状态
终止状态的定义有两种：
- 时间终止
- 状态终止

由于马尔可夫过程可以用图中的方块和线条表示，所以马尔可夫过程也成为马尔可夫链

片段

强化学习中，从初始状态 $S_1$ 到终止状态的序列过程，被称为一个片段 $S_1,S_2,...,S_T$

如果一个任务总以终止状态结束，那么这个任务被称为片段任务
如果一个任务会没有终止状态，会被无限执行下去，被称为连续性任务

这里写图片描述

状态转移矩阵：

这里写图片描述

马尔可夫奖励过程（MRP）

马尔可夫链主要描述的是状态之间的转移关系，在这个转移关系上赋予不同的奖励值即得到了马尔可夫奖励过程。

S代表状态的集合
P表示状态转移矩阵
R表示奖励函数，R(s)描述在状态s的奖励 $R(s)=E[R_{t+1}|S_t=s]$
$\gamma$ 表示衰减因子， $\gamma \in [0,1]$

这里写图片描述

回报值

奖励值是对每一个状态的评价，回报值是对每一个片段的评价
回报值（return $G_t$ ）是从时间t处开始的累计衰减奖励

对于片段性任务

$G t = R t + 1$

最低0.47元/天解锁文章

关注

8
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。