David silver 的 reinforcement learning 课程笔记(二):马尔科夫决策过程

最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…

Markov Process

状态 s 是马尔科夫的但且仅当:

P(S(t+1)|St=P(St+1|S1,...,St)

一个马尔科夫过程可以用一个二元组 (S,P) 定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样本(sample)为一个随机采样的序列(sequence)。

Markov Reward Process

没有价值的判断就无法生成有效的策略。因此,引入了reward这样一个概念。 一个markov reward process 是一个四元组( S,P,R,γ ),其中 R 为reward function,定义为

Rs=E(Rt+1|St=s)

γ 为折扣系数,此处的reward可以理解为离开当前状态得到的奖赏。
而我们所关心的是一个样本(sequence)在某个时刻所带来的回报,即累计奖赏(accumulated reward)return。

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1

这里引入折扣的原因一是因为未来的不确定性且为了避免无穷大的return。而对于金融领域,立即的奖赏明显比延后的奖赏更加诱人。
State value function 评分函数 v(s) 表示从当前状态 s 出发能够得到的奖赏的期望,描述的是状态v(s)的长期价值。

v(s)=E(Gt|St=s)

Bellman Equation

Gt 带入可得

v(s)=E(Rt+1+γv(St+1)|St=s)=Rs+γs,SPss,v(s,)
即可得到bellman 方程
v=R+γPv

其中 v,R 为列向量, P 为转移概率矩阵。其计算开销巨大O(n3)
迭代求取的方法有:动态规划,时序差分学习,蒙特卡洛评价等方式

Markov Dicision Process

一个马尔科夫决策过程可有一个5元组 (S,A,P,R,γ) 描述
其中 A 为动作action的集合,P则被定义为
Pass,=P(St+1=s,|St=s,At=a)
即状态 s 经动作a转移到状态 s, 的概率
R 的定义类似于此前,

Ras=E(Rt+1|St=s,At=a)

policy

一个策略 π 指的是对于一个状态对应的可能执行的动作的分布

π(a|s)=P(At=a|St=s)
且其不随时间的改变而改变
有了策略后,可以根据value state function 定义 action value function。
qπ=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+γqπ(St+1,At+1)|St=s,At=a)

同时可得以下方程
vπ(s)=aAπ(a|s)qπ(s,a)

qπ(s,a)=Ras+γs,SPass,vπ(s,)

Optimal Value Function

v(s)=maxπvπ(s)

q(s,a)=maxπqπ(s,a)

一个最优策略可以由 q(s,a) 得到:
π(s,a)={10a=argmaxaAq(s,a)otherwise

Extensions to MDPs

POMDP(partially observable markov decision)

我的理解是,他是一个加入了动作的隐马尔科夫模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值