David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程

Lecture 2: Markov Decision Processes
https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf

Markov Processes

在这里插入图片描述
几乎所有的强化学习问题都可以表述为马尔可夫决策过程为题,而马尔可夫过程中的状态均满足马尔可夫性。根据定义式,马尔可夫状态包含了其history中全部的状态信息,即该状态是下一状态的充分统计量,在强化学习中信息量是全部的rewards。
在这里插入图片描述
马尔可夫状态的转换通过状态转换矩阵实现。
在这里插入图片描述
马尔可夫过程是一个无记忆性的随机过程,表示为一个二元组,其中把偶偶状态集S和过程集P。

Markov Reward Processes

在这里插入图片描述
马尔可夫奖励过程(MRP)与马尔可夫过程(MP)相比多了一个奖励函数和一个折扣银子。折扣银子表示未来奖励对于现在的影响大小(0到1之间)。
在这里插入图片描述
回报是从时间t开始的一直到终止整个过程中全部的折扣奖励,这里的奖励是从t+1开始计算,可以看到距离当前时间最近的奖励是最被看重的。
myopic 近视的;短视的;目光短浅的
far-sighted 有远见的;深谋远虑的
在这里插入图片描述
MRP的价值方程给出了状态s的一个长期价值。
在这里插入图片描述
贝尔曼方程很好推导出来,分为当前的reward和折扣因子下的下一状态值,两部分加和的期望即为状态s的值函数。
在这里插入图片描述
在这里插入图片描述

贝尔曼方程的矩阵表示形式,也可以被直接解出来。

Markov Decison Processes

在这里插入图片描述
马尔可夫决策过程(MDP),相比MRP多了action。
MDP是执行一个动作action得到的,儿MRP进入状态就可得到。
MDP中执行一个动作得到的结果不一定相同,所以也是以概率P的形式存在,这点与MRP中状态转换以P的形式存在同理。

在这里插入图片描述Policy是根据跟定状态下action的分布
在这里插入图片描述
MDP的价值方程分为状态价值和行为价值两种,这里的函数值是与策略相关的,方程根据某一状态和行为下得到的回报(折扣奖励的总和)的期望得到。

在这里插入图片描述
MDP的贝尔曼方程同样也分为状态价值方程和行为价值方程。这是因为状态和行为的交替产生的,每一种行为都可以产生不同概率的状态,在同一状态下也可能做出不同的行为。
在这里插入图片描述
从行为(黑点)推状态(圆圈),得到状态的价值方程。
在这里插入图片描述
从圆圈推行为,得到行为的状态价值方程。

在这里插入图片描述
在状态-行为-状态的结构中,得到的状态方程如上。

在这里插入图片描述
在行为-状态-行为的方程中,得到的方程如上。

在这里插入图片描述
最优价值方程

在这里插入图片描述
在这里插入图片描述

最优策略,找到行为a可以时行为价值方程的函数值最大,将这个行为设为1,其他设为0。

在这里插入图片描述
解决最优贝尔曼方程的途径

Extensions to MDPs

在这里插入图片描述
在这里插入图片描述

(no exam)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值