David silver 的 reinforcement learning 课程笔记（二）：马尔科夫决策过程

最新推荐文章于 2021-03-20 14:54:51 发布

ahfranck

最新推荐文章于 2021-03-20 14:54:51 发布

阅读量664

点赞数

文章标签：增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012937021/article/details/58264245

版权

最近在学增强学习，边看课程视频编写的总结。希望和大家一起讨论学习…

Markov Process

状态 $s$ 是马尔科夫的但且仅当:

P (S (t + 1) | S t ） = P (S t + 1 | S 1, . . ., S t)

$P(S_{(t+1)}|S_t）=P(S_{t+1}|S_1,...,S_t)$
一个马尔科夫过程可以用一个二元组

(S,P) $(S,P)$ 定义，其中S为有限的状态的集合，P为转移矩阵。对于一个马尔科夫过程一个样本(sample)为一个随机采样的序列(sequence)。

Markov Reward Process

没有价值的判断就无法生成有效的策略。因此，引入了reward这样一个概念。一个markov reward process 是一个四元组( $S,P,R,\gamma$ )，其中 $R$ 为reward function，定义为

R s = E (R t + 1 | S t = s)

$R_s=E(R_{t+1}|S_t=s)$

$\gamma$ 为折扣系数,此处的reward可以理解为离开当前状态得到的奖赏。
而我们所关心的是一个样本（sequence）在某个时刻所带来的回报，即累计奖赏（accumulated reward）return。

G t = R t + 1 + γ R t + 2 + . . . = \sum k = 0 \infty γ k R t + k + 1

$G_t=R_{t+1}+\gamma R_{t+2}+...=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

这里引入折扣的原因一是因为未来的不确定性且为了避免无穷大的return。而对于金融领域，立即的奖赏明显比延后的奖赏更加诱人。
State value function 评分函数 $v(s)$ 表示从当前状态 $s$ 出发能够得到的奖赏的期望，描述的是状态 $v(s)$ 的长期价值。

v (s) = E (G t | S t = s)

$v(s)=E(G_t|S_t=s)$

Bellman Equation

将 $G_t$ 带入可得

v (s) = E (R t + 1 + γ v (S t + 1) | S t = s) = R s + γ \sum s, \in S P s s, v (s,)

$v(s)=E(R_{t+1}+\gamma v(S_t+1)|S_t=s)\\ =R_s+\gamma\sum_{s^,\in S}P_{ss^,}v(s^,)$ 即可得到bellman 方程

v = R + γ P v

$v=R+\gamma Pv$
其中

v,R $v,R$ 为列向量，

P $P$ 为转移概率矩阵。其计算开销巨大

O(n3) $O(n^3)$ 。
迭代求取的方法有：动态规划，时序差分学习，蒙特卡洛评价等方式

Markov Dicision Process

一个马尔科夫决策过程可有一个5元组 $(S,A,P,R,\gamma)$ 描述
其中 $A$ 为动作action的集合， $P$ 则被定义为
$P^{a}_{ss^,}=P(S_{t+1}=s^,|S_t=s,A_t=a)$
即状态 $s$ 经动作 $a$ 转移到状态 $s^,$ 的概率
$R$ 的定义类似于此前，

R a s = E (R t + 1 | S t = s, A t = a)

$R^a_s=E(R_{t+1}|S_t=s,A_t=a)$

policy

一个策略 $\pi$ 指的是对于一个状态对应的可能执行的动作的分布

π (a | s) = P (A t = a | S t = s)

$\pi(a|s)=P(A_t=a|S_t=s)$ 且其不随时间的改变而改变
有了策略后，可以根据value state function 定义 action value function。

q π = E π (G t | S t = s, A t = a) = E π (R t + 1 + γ q π (S t + 1, A t + 1) | S t = s, A t = a)

$q_\pi=E_\pi(G_t|S_t=s,A_t=a)\\ =E_\pi(R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a)$
同时可得以下方程

v π (s) = \sum a \in A π (a | s) q π (s, a)

$v_\pi(s)=\sum_{a \in A}\pi(a|s)q_\pi(s,a)$

q π (s, a) = R a s + γ \sum s, \in S P a s s, v π (s,)

$q_\pi(s,a)=R^a_s+\gamma \sum_{s^, \in S}P^a_{ss^,}v_\pi(s^,)$

Optimal Value Function

v * (s) = m a x π v π (s)

$v_*(s)=max_\pi v_\pi(s)$

q * (s, a) = m a x π q π (s, a)

$q_*(s,a)=max_\pi q_\pi(s,a)$
一个最优策略可以由

q∗(s,a) $q_*(s,a)$ 得到：

π * (s, a) = {10 a = a r g m a x a \in A q * (s, a) o t h e r w i s e

$\pi_*(s,a)=\begin{cases} 1&a=argmax_{a\in A}q_*(s,a)\\ 0&otherwise\end{cases}$

Extensions to MDPs

POMDP(partially observable markov decision)

我的理解是，他是一个加入了动作的隐马尔科夫模型

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ahfranck CSDN认证博客专家 CSDN认证企业博客

码龄11年

1: 原创

100万+: 周排名

110万+: 总排名

664: 访问

: 等级

16: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

David silver 的 reinforcement learning 课程笔记（二）：马尔科夫决策过程 664

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。