强化学习建模方法-马尔可夫决策过程

jiaojj1005

已于 2023-09-01 10:52:44 修改

阅读量190

点赞数

文章标签：机器人机器学习概率论

于 2023-09-01 10:51:02 首次发布

本文链接：https://blog.csdn.net/qq_33761617/article/details/132615272

版权

文章目录

前言
随机过程
马尔科夫决策过程(MDP)

前言

最近在学习强化学习的时候接触到了他的核心建模方法，马尔科夫决策过程（MDP），有必要对此方法进行记录，以便加深理解和供需要的同伴参考。这是概率中的概念，没想到在物理里面也有如此大的作用，它是一种随机过程，因此，在谈马尔科夫过程之前，先闲聊几句随机过程。

随机过程

首先从概率的角度抛出这个概念。在现实生活中有这样一种不确定现象，它每次随机试验会持续一段时间，其可能结果是一个关于时间的函数。比如，我们收集 $t$ 时间段内通信中随机信号的变化情况，每次随机试验都可以得到一个 $\xi(t)$ 的函数，而且每次试验的函数曲线都不一样。我们把试验结果画到同一个坐标系中，可以看到 $\xi(t)$ 的结果有无数个且服从某一分布，有规律的分布的 $a (t)$ 附近，因此我们把这种不确定现象称为随机过程（Stochastic Process）。
图1 随机过程图(实际曲线有无数条，这里只列举三条来阐述概念)

马尔科夫决策过程(MDP)

随机过程和经典的牛顿力学相似，都在试图解释宏观世界的动力学特征—参数随时间的变化规律。不同之处在于，牛顿力学阐释的是每个时刻研究对象确定的位置和动量，而随机过程只能给出某个确定的时刻我们想要得到的物理量的概率分布。而马尔可夫过程作为随机过程中的一种，最大的特征在于，当前状态分布概率只与前一时刻相关，下面用数学公式表示：
$P(S_n=i_n|S_{n-1}=i_{n-1},\ldots,S_0=i_0)=P(S_n=i_n|S_{n-1}=i_{n-1})$
其中： $S_n$ 表示在第 $n$ 个时间步长后的随机变量 $S$ ， $i_n$ 代表
$S$ 的取值。在这种假设条件的约束下，它和牛顿力学的表达思想基本一样，当前时刻只与上一时刻的状态有关。基于上述性质，我们可以得到每一刻的随机变量取值
$P(S_n=i_n,S_{n-1}=i_{n-1},\ldots,S_0=i_0)=P(S_n=i_n|S_{n-1}=i_{n-1})\\\cdots P(S_1=i_1|S_0=i_0)P(S_0=i_0)$
受王树森老师在深度强化学习中《超级马力欧兄弟》的例子启发，这里我们不以马力欧兄弟进行举例，我们以简单的抛硬币为例，假设每抛出一个硬币都有两种可能，一种是正面向上 $+ 1$ ，一种是正面向下 $- 1$ ，记第 $n$ 次抛硬币后的得分为 $S_n$ , 我们有 $S_0=0,S_n=S_{n-1}+\zeta_n$ ,其中 $\zeta_n$ 是抛硬币第 $n$ 次的得分，可能是得分为正，也可能是得分为负，我们假设 $\zeta_n=1$ 为得分为正，概率为 $p$ , $\zeta_n=-1$ 为得分为负，概率为 $1 - p$ ,可以得到：
$P(S_n=j|S_{n-1}=i)=\left\{\begin{array}{r}p,j=i+1\\1-p,j=i-1\end{array}\right.$
这就是一个马尔可夫决策过程(MDP)。

它作为强化学习的数学基础和建模工具,通常由状态空间、动作空间、奖励函数、状态转移函数、折扣率等组成。

后续内容请参考王树森《深度强化学习》一书，这里附上github地址(https://github.com/wangshusen/DRL),讲解简单易懂。

参考文献
[1] Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto

jiaojj1005

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习建模方法-马尔可夫决策过程

摘要：强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，MDP）来描述，机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含5个要素：状态、动作、转移概率、奖励函数和折扣因子。
复制链接

扫一扫