David Silver强化学习笔记-Lecture 2: Markov Decision Processes

最新推荐文章于 2023-11-20 15:38:49 发布

huibinny

最新推荐文章于 2023-11-20 15:38:49 发布

阅读量760

点赞数

文章标签：强化学习马尔科夫过程 MDP MRP

本文链接：https://blog.csdn.net/huibinny/article/details/103226549

版权

本文详细介绍了马尔科夫决策过程（MDP）的基础知识，包括马尔科夫过程的定义、马尔科夫属性、状态转移矩阵；马尔科夫奖励过程（MRP）的概念、价值函数、折扣因子的作用；以及MDP的定义、策略、贝尔曼方程。通过学生行为的示例，解释了MDP如何描述环境并求解最优策略。

摘要由CSDN通过智能技术生成

Lecture 2: Markov Decision Processes(马尔科夫决策过程)

一、Marokov Process

（一）Introduction

Introduction to MDPs

马尔可夫决策过程正式描述了强化学习的环境
我们希望有一些对环境的描述。MDP可以对环境进行描述
环境是完全可观测的
也就是说当前状态完全特征化了过程
被告知给agent的state在某种程度上特征化了整个环境展开的过程，环境的变化是依赖于一些state的，state是完全可观测的
所有的RL问题都可以形式化为MDPS，例如：
- 最佳控制主要处理连续的MDP
- 可以将部分可观察到的问题转换为MDP
- 老虎机问题是单个状态的MDPs
  在某些时刻，你拥有一些actions的集合，你需要采取一个action，然后就可以得到该action对应的reward，之后任务就完成了。

（二）Markov Property（马尔科夫属性）

“The future is independent of the past given the present”
在这里插入图片描述

状态从历史中捕获所有相关信息
知道状态后，历史可能会被丢弃
即，状态是对未来的充分统计

State Transition Matrix（状态转移矩阵）

对于马尔可夫状态s和后继状态s‘，状态转移概率定义为：
在这里插入图片描述
状态转移矩阵P定义了从所有状态s到所有后继状态s’的转移概率，

矩阵的每一行总和为1。

我们当前所处的state特征化了接下来会发生的一切，这就意味着，有一些良好定义的转移概率会告诉我，如果我之前处在这种state，就会有对应的一些概率值指出，在那种状态下我就将以一定概率值转移到一定的后继状态。例如：有一个机器人，我推了他一下，他有一定概率摔倒，或有一定概率向前走一步，这取决于之前所处的状态。

（三）马尔科夫链

Markov Process定义

马尔可夫过程是无记忆的随机过程，即具有Markov属性的一系列随机状态S1，S2 …
在这里插入图片描述
马尔科夫过程（或马尔科夫链）是一个元组，<S,P>

S 是一组有限的状态
P 是状态转移概率矩阵

Example: Student Markov Chain

在这里插入图片描述

Example: Student Markov Chain Episodes

从S1 = C1开始的学生马尔可夫链样本集
S1, S2, …, ST
在这里插入图片描述

Example: Student Markov Chain Transition Matrix

在这里插入图片描述
有个这个矩阵后我们可以重复从这个矩阵中进行取样。

二、Markov Reward Process

（一）定义

马尔可夫奖赏过程是具有价值的马尔可夫链
带有value判断的Markov Process，value会告诉我们这个状态有多好。即对于一些从某个Markov Process取样得到的特定的序列，他们已经累计的多少reward。
在这里插入图片描述
R是当前时刻从状态S得到多少immediate reward,我们关心的是最大化累计的rewards。

（二）Example: Student MRP

在这里插入图片描述

（三） Return

在这里插入图片描述
Gt是随机的，Gt只是一个样本，它来自我们的MRP，我们讨论的序列的rewards

折扣值 $\gamma\in\lbrack0,1\rbrack$
经过k +1个时间步长后获得奖励R的值为 $\gamma^kR$
这将immediate reward为高于delayed reward。
- $\gamma$ 接近0会导致“近视”评估
  越是喜欢现在的reward
- $\gamma$ 接近0会导致“远视”评估
  我们越不关心现在的reward

为什么要有折扣因子

大多数马尔可夫奖赏和决策过程都被打折。为什么？

数学上方便
避免循环马尔可夫过程中的无限收益
关于未来的不确定性可能无法完全体现
如果奖励是财务奖励，则即时奖励比延迟奖励可能会获得更多的利息
动物/人类行为显示出对立即奖励的偏好
有时可能会使用未折现的马尔可夫奖励流程（即 $\gamma=1$ ）

即便决策过程本身包含了无限循环，单个sample都会是一个有限的连接，唯一的问题是在哪一步终止
我们没有一个关于环境的完美模型，我们认为我们已经提出了一个很不错的计划，我们认为我们确切知道如何走向未来的步骤，但如果我们不完全相信我们所做的决定，我们不完全相信我们的评估，我们可以选择打折。

（四）Value Function

value就是total reward
值函数v(s)给出状态s的长期值
在这里插入图片描述
MRP的状态值函数v(s)是从状态s开始的预期收益
衡量在状态s可以获得多少reward

Example: Student MRP Returns

学生MRP的return样本(随机取样)：
从S1 = C1开始, $\gamma=1$

在这里插入图片描述

Example: State-Value Function for Student MRP （1）

在这里插入图片描述
$\gamma=0$ ，我们完全不关心除了当前这一步其他时间步的reward

Example: State-Value Function for Student MRP （2）

在这里插入图片描述
$\gamma=0.9$ ，我们必须关心所有的state

Example: State-Value Function for Student MRP （3）

在这里插入图片描述
$\gamma=1$ ，所有的state同等重要

（五）Bellman Equation

Bellman Equation for MRPs

value function可以分解为两部分：

即时奖励

最低0.47元/天解锁文章

huibinny

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
David Silver强化学习笔记-Lecture 2: Markov Decision Processes

Lecture 2: Markov Decision Processes(马尔科夫决策过程)一、Marokov Process（一）IntroductionIntroduction to MDPs马尔可夫决策过程正式描述了强化学习的环境我们希望有一些对环境的描述。环境是完全可观测的当前状态完全特征化了过程被告知给agent的state在某种程度上特征化了真个环境展开的过程，环境的...
复制链接

扫一扫