强化学习笔记------第二章----马尔可夫决策过程(MDP)(超详细)

在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。

Markov Process(MP)
Markov Property
如果一个状态转移是符合马尔可夫的,那就是说下一个状态只取决于他当前状态,而跟他当前状态之前的状态都没有关系。

假定状态历史为ht={s1,s2,…,st}(ht包含了之前的所有状态),如果一个状态转移是符合马尔科夫的,也就是满足如下条件:
在这里插入图片描述
从当前st转移到st+1这个状态,他就直接等于它之前所有的状态转移到st+1。如果某一个过程满足马尔可夫性质(Markov Property),就是说未来的转移跟过去是独立的,只取决于现在。马尔可夫性质是所有马尔可夫过程的基础

Markov Process/Markov Chain

在这里插入图片描述
首先看一看马尔可夫链(Markov Chain)。例如上图里面有四个状态,四个状态之间可以相互转移,比如说从s1开始:
s1有 0.1 的概率继续存活在 s1状态,
有 0.2 的概率转移到 s2
有 0.7 的概率转移到 s4
如果 s4 是我们当前状态的话,
它有 0.3 的概率转移到 s2
有 0.2 的概率转移到 s3
有 0.5 的概率留在这里。
可以使用状态转移矩阵(State Transition Matrix)P来描述状态转移P(st+1=s‘ | st=s),如下图所示。
在这里插入图片描述
Example of MP
在这里插入图片描述
上图是一个马尔可夫链的例子,我们这里有七个状态。比如说从 s1开始到 s2 ,它有 0.4 的概率,然后它有 0.6 的概率继续存活在它当前的状态。s2 有 0.4 的概率到左边,有 0.4 的概率到 s3,另外有 0.2 的概率存活在现在的状态,所以给定了这个状态转移的马尔可夫链后,我们可以对这个链进行采样,这样就会得到一串的轨迹。

下面我们有三个轨迹,都是从同一个起始点开始。假设还是从 s3这个状态开始,

第一条链先到了 s4, 又到了 s5s ,又往右到了 s6,然后继续存活在 s6状态。
第二条链从 s3开始,先往左走到了 s2。然后它又往右走,又回到了s3 ,然后它又往左走,然后再往左走到了 s1
通过对这个状态的采样,我们生成了很多这样的轨迹。

Markov Reward Process(MRP)
在这里插入图片描述
马尔可夫奖励过程(Markov Reward Process,MRP)是马尔科夫链再加上了一个奖励函数,在MRP中,转移矩阵跟它的这个状态都是跟马尔科夫链一样的,多了一个奖励函数(reward function)。奖励函数是一个期望,即就是说当你到达某一状态的时候,可以获得多大的奖励,然后另外定义了一个 discount factor γ \gamma γ

Example o

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值