Lecture 2: Markov Decision Processes(马尔科夫决策过程)
一、Marokov Process
(一)Introduction
Introduction to MDPs
- 马尔可夫决策过程正式描述了强化学习的环境
我们希望有一些对环境的描述。MDP可以对环境进行描述 - 环境是完全可观测的
- 也就是说当前状态完全特征化了过程
被告知给agent的state在某种程度上特征化了整个环境展开的过程,环境的变化是依赖于一些state的,state是完全可观测的 - 所有的RL问题都可以形式化为MDPS,例如:
- 最佳控制主要处理连续的MDP
- 可以将部分可观察到的问题转换为MDP
- 老虎机问题是单个状态的MDPs
在某些时刻,你拥有一些actions的集合,你需要采取一个action,然后就可以得到该action对应的reward,之后任务就完成了。
(二)Markov Property(马尔科夫属性)
“The future is independent of the past given the present”
- 状态从历史中捕获所有相关信息
- 知道状态后,历史可能会被丢弃
- 即,状态是对未来的充分统计
State Transition Matrix(状态转移矩阵)
对于马尔可夫状态s和后继状态s‘,状态转移概率定义为:
状态转移矩阵P定义了从所有状态s到所有后继状态s’的转移概率,
矩阵的每一行总和为1。
我们当前所处的state特征化了接下来会发生的一切,这就意味着,有一些良好定义的转移概率会告诉我,如果我之前处在这种state,就会有对应的一些概率值指出,在那种状态下我就将以一定概率值转移到一定的后继状态。例如:有一个机器人,我推了他一下,他有一定概率摔倒,或有一定概率向前走一步,这取决于之前所处的状态。
(三)马尔科夫链
Markov Process定义
马尔可夫过程是无记忆的随机过程,即具有Markov属性的一系列随机状态S1,S2 …
马尔科夫过程(或马尔科夫链)是一个元组,<S,P>
- S 是一组有限的状态
- P 是状态转移概率矩阵
Example: Student Markov Chain
Example: Student Markov Chain Episodes
从S1 = C1开始的学生马尔可夫链样本集
S1, S2, …, ST
Example: Student Markov Chain Transition Matrix
有个这个矩阵后我们可以重复从这个矩阵中进行取样。
二、Markov Reward Process
(一)定义
马尔可夫奖赏过程是具有价值的马尔可夫链
带有value判断的Markov Process,value会告诉我们这个状态有多好。即对于一些从某个Markov Process取样得到的特定的序列,他们已经累计的多少reward。
R是当前时刻从状态S得到多少immediate reward,我们关心的是最大化累计的rewards。
(二)Example: Student MRP
(三) Return
Gt是随机的,Gt只是一个样本,它来自我们的MRP,我们讨论的序列的rewards
- 折扣值 γ ∈ [ 0 , 1 ] \gamma\in\lbrack0,1\rbrack γ∈[0,1]
- 经过k +1个时间步长后获得奖励R的值为 γ k R \gamma^kR γkR
- 这将immediate reward为高于delayed reward。
- γ \gamma γ接近0会导致“近视”评估
越是喜欢现在的reward - γ \gamma γ接近0会导致“远视”评估
我们越不关心现在的reward
- γ \gamma γ接近0会导致“近视”评估
为什么要有折扣因子
大多数马尔可夫奖赏和决策过程都被打折。 为什么?
- 数学上方便
- 避免循环马尔可夫过程中的无限收益
- 关于未来的不确定性可能无法完全体现
- 如果奖励是财务奖励,则即时奖励比延迟奖励可能会获得更多的利息
- 动物/人类行为显示出对立即奖励的偏好
- 有时可能会使用未折现的马尔可夫奖励流程(即 γ = 1 \gamma=1 γ=1)
即便决策过程本身包含了无限循环,单个sample都会是一个有限的连接,唯一的问题是在哪一步终止
我们没有一个关于环境的完美模型,我们认为我们已经提出了一个很不错的计划,我们认为我们确切知道如何走向未来的步骤,但如果我们不完全相信我们所做的决定,我们不完全相信我们的评估,我们可以选择打折。
(四)Value Function
value就是total reward
值函数v(s)给出状态s的长期值
MRP的状态值函数v(s)是从状态s开始的预期收益
衡量在状态s可以获得多少reward
Example: Student MRP Returns
学生MRP的return样本(随机取样):
从S1 = C1开始, γ = 1 \gamma=1 γ=1
Example: State-Value Function for Student MRP (1)
γ = 0 \gamma=0 γ=0,我们完全不关心除了当前这一步其他时间步的reward
Example: State-Value Function for Student MRP (2)
γ = 0.9 \gamma=0.9 γ=0.9,我们必须关心所有的state
Example: State-Value Function for Student MRP (3)
γ = 1 \gamma=1 γ=1,所有的state同等重要
(五)Bellman Equation
Bellman Equation for MRPs
value function可以分解为两部分:
- 即时奖励