第 2 讲:马尔可夫决策过程

 目录

1 马尔可夫过程

2 马尔可夫奖励过程

3 马尔可夫决策过程

4 MDP 的扩展


马尔可夫过程 

MDP 简介

马尔可夫决策过程正式描述环境用于强化学习,环境完全可观察的地方,即当前状态完全表征了过程
几乎所有 RL 问题都可以形式化为 MDP。

例如
        最优控制主要处理连续 MDP
        部分可观察的问题可以转化为 MDP
        Bandits 是具有一种状态的 MDP

马尔可夫性质


“鉴于现在,未来独立于过去”
定义
州圣
是马尔可夫当且仅当

状态从历史中捕获所有相关信息
一旦知道状态,历史可能会被丢弃
即状态是对未来的充分统计

 状态转移矩阵

 
对于马尔可夫状态 s 和后继状态 s
0
, 状态转移
概率定义为

状态转移矩阵 P 定义了所有的转移概率
状态 s 到所有继承状态 s

其中矩阵的每一行总和为 1。


马尔可夫过程


马尔可夫过程是一个无记忆的随机过程,即一个序列
随机状态 S1, S2, ... 具有马尔可夫属性。

 

 

学生马尔可夫的样本剧集
从 S1 = C1 开始的链

马尔可夫奖励过程


马尔可夫奖励过程是具有价值的马尔可夫链。 

 

折扣 γ ∈ [0, 1] 是未来奖励的现值
在 k + 1 个时间步后获得奖励 R 的值为 γ
kR。
这将立即奖励置于延迟奖励之上。
γ接近0导致“短视”评价
γ接近1导致评价“有远见” 

为什么要打折?


大多数马尔可夫奖励和决策过程都打了折扣。 为什么?
数学上方便打折奖励
避免循环马尔可夫过程中的无限回报
未来的不确定性可能无法充分体现
如果奖励是经济上的,那么即时奖励可能会赚得更多
利息高于延迟奖励
动物/人类行为表现出对即时性的偏好
报酬
有时可以使用未打折的马尔可夫奖励
过程(即 γ = 1),例如 如果所有序列都终止。

 价值函数


价值函数 v(s) 给出了状态 s 的长期价值

学生 MRP 的示例退货:
从 S1 = C1 开始, γ =1/2 

MRP 的贝尔曼方程


价值函数可以分解为两部分:
即时奖励 Rt+1
后继状态的贴现值 γv(St+1)

贝尔曼方程可以用矩阵简明地表达,v = R + γPv 其中 v 是一个列向量,每个状态有一个条目

贝尔曼方程是一个线性方程

可以直接解决: v = R + γPv (I - γP) v = R v = (I - γP) -1 R 计算复杂度为 O(n 3 ) 对于 n 个状态 仅适用于小型 MRP 的直接解决方案 大型 MRP 有许多迭代方法,例如 动态规划 蒙特卡罗评估 时差学习

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值