强化学习笔记------第二章----马尔可夫决策过程（MDP）（超详细）

最新推荐文章于 2023-11-27 22:12:04 发布

深度睡眠小能手

最新推荐文章于 2023-11-27 22:12:04 发布

阅读量1.9k

点赞数 4

文章标签：人工智能强化学习动态规划算法

本文链接：https://blog.csdn.net/w18165269429/article/details/115345024

版权

在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更容易理解马尔可夫决策过程。

Markov Process(MP)
Markov Property
如果一个状态转移是符合马尔可夫的，那就是说下一个状态只取决于他当前状态，而跟他当前状态之前的状态都没有关系。

假定状态历史为h_t={s₁,s₂,…,s_t}(h_t包含了之前的所有状态)，如果一个状态转移是符合马尔科夫的，也就是满足如下条件：
在这里插入图片描述
从当前s_t转移到s_t+1这个状态，他就直接等于它之前所有的状态转移到s_t+1。如果某一个过程满足马尔可夫性质（Markov Property），就是说未来的转移跟过去是独立的，只取决于现在。马尔可夫性质是所有马尔可夫过程的基础

Markov Process/Markov Chain

在这里插入图片描述
首先看一看马尔可夫链（Markov Chain）。例如上图里面有四个状态，四个状态之间可以相互转移，比如说从s₁开始：
s₁有 0.1 的概率继续存活在 s₁状态，
有 0.2 的概率转移到 s₂，
有 0.7 的概率转移到 s₄。
如果 s₄ 是我们当前状态的话，
它有 0.3 的概率转移到 s₂，
有 0.2 的概率转移到 s₃ ，
有 0.5 的概率留在这里。
可以使用状态转移矩阵（State Transition Matrix）P来描述状态转移P（s_t+1=s‘ | s_t=s），如下图所示。
在这里插入图片描述
Example of MP

上图是一个马尔可夫链的例子，我们这里有七个状态。比如说从 s₁开始到 s₂ ，它有 0.4 的概率，然后它有 0.6 的概率继续存活在它当前的状态。s₂ 有 0.4 的概率到左边，有 0.4 的概率到 s₃，另外有 0.2 的概率存活在现在的状态，所以给定了这个状态转移的马尔可夫链后，我们可以对这个链进行采样，这样就会得到一串的轨迹。

下面我们有三个轨迹，都是从同一个起始点开始。假设还是从 s₃这个状态开始，

第一条链先到了 s₄，又到了 s₅s ，又往右到了 s₆，然后继续存活在 s₆状态。
第二条链从 s₃开始，先往左走到了 s₂。然后它又往右走，又回到了s₃ ，然后它又往左走，然后再往左走到了 s₁。
通过对这个状态的采样，我们生成了很多这样的轨迹。

Markov Reward Process（MRP）
在这里插入图片描述
马尔可夫奖励过程（Markov Reward Process，MRP）是马尔科夫链再加上了一个奖励函数，在MRP中，转移矩阵跟它的这个状态都是跟马尔科夫链一样的，多了一个奖励函数（reward function）。奖励函数是一个期望，即就是说当你到达某一状态的时候，可以获得多大的奖励，然后另外定义了一个 discount factor $\gamma$

Example o

最低0.47元/天解锁文章

深度睡眠小能手

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
强化学习笔记------第二章----马尔可夫决策过程（MDP）（超详细）

在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更容易理解马尔可夫决策过程。Markov Process(MP)Markov Property如果一个状态转移是符合马尔可夫的，那就是说下一个状态只取决于他当前状态，而跟他当前状态之前的状态都没有关系。假定状态历史为ht={s1,s2,…,st}(ht包含了之前的所有状态)，如果一个状态转移是符合马尔科夫的，也就是满足如下条件：从当前st转移到st+1这个状态，他就直接等于它之前所有的
复制链接

扫一扫