David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程

我不是zzy1231A

已于 2022-02-16 08:52:15 修改

阅读量595

点赞数

分类专栏：强化学习文章标签：概率论强化学习人工智能

于 2022-02-01 22:19:56 首次发布

本文链接：https://blog.csdn.net/dzcera/article/details/122756093

版权

强化学习专栏收录该内容

10 篇文章 9 订阅

订阅专栏

Lecture 2: Markov Decision Processes
https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf

Markov Processes

在这里插入图片描述
几乎所有的强化学习问题都可以表述为马尔可夫决策过程为题，而马尔可夫过程中的状态均满足马尔可夫性。根据定义式，马尔可夫状态包含了其history中全部的状态信息，即该状态是下一状态的充分统计量，在强化学习中信息量是全部的rewards。
在这里插入图片描述
马尔可夫状态的转换通过状态转换矩阵实现。

马尔可夫过程是一个无记忆性的随机过程，表示为一个二元组，其中把偶偶状态集S和过程集P。

Markov Reward Processes

在这里插入图片描述
马尔可夫奖励过程（MRP）与马尔可夫过程（MP）相比多了一个奖励函数和一个折扣银子。折扣银子表示未来奖励对于现在的影响大小（0到1之间）。

回报是从时间t开始的一直到终止整个过程中全部的折扣奖励，这里的奖励是从t+1开始计算，可以看到距离当前时间最近的奖励是最被看重的。
myopic 近视的；短视的；目光短浅的
far-sighted 有远见的；深谋远虑的
在这里插入图片描述
MRP的价值方程给出了状态s的一个长期价值。

贝尔曼方程很好推导出来，分为当前的reward和折扣因子下的下一状态值，两部分加和的期望即为状态s的值函数。

贝尔曼方程的矩阵表示形式，也可以被直接解出来。

Markov Decison Processes

在这里插入图片描述
马尔可夫决策过程（MDP），相比MRP多了action。
MDP是执行一个动作action得到的，儿MRP进入状态就可得到。
MDP中执行一个动作得到的结果不一定相同，所以也是以概率P的形式存在，这点与MRP中状态转换以P的形式存在同理。

在这里插入图片描述 Policy是根据跟定状态下action的分布

MDP的价值方程分为状态价值和行为价值两种，这里的函数值是与策略相关的，方程根据某一状态和行为下得到的回报（折扣奖励的总和）的期望得到。

在这里插入图片描述
MDP的贝尔曼方程同样也分为状态价值方程和行为价值方程。这是因为状态和行为的交替产生的，每一种行为都可以产生不同概率的状态，在同一状态下也可能做出不同的行为。

从行为（黑点）推状态（圆圈），得到状态的价值方程。
在这里插入图片描述
从圆圈推行为，得到行为的状态价值方程。

在这里插入图片描述
在状态-行为-状态的结构中，得到的状态方程如上。

在这里插入图片描述
在行为-状态-行为的方程中，得到的方程如上。

在这里插入图片描述
最优价值方程

在这里插入图片描述

最优策略，找到行为a可以时行为价值方程的函数值最大，将这个行为设为1，其他设为0。

在这里插入图片描述
解决最优贝尔曼方程的途径

Extensions to MDPs

在这里插入图片描述

（no exam）

我不是zzy1231A

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程

Lecture 2: Markov Decision Processeshttps://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf
复制链接

扫一扫