reinforcement learning,增强学习:Markov Decision Processes

所有内容来自:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html



S--->a---r--->S'--->a'---r'--->S''(reward在take action之后才有反馈,注意顺序)

另外还有两个等式:Bellman Expectation Equation,Bellman Optimality Equation 。





传统的RL的研究对象就是MDP。直接假设就是【环境是完全可观察(当前状态唯一决定了整个过程的特性)】。

Optimal control primarily deals with continuous MDPs
Partially observable problems can be converted into MDPs



马尔科夫决策过程的性质:

一个状态的转移过程是MDP,当且仅当:P [St+1 | St] = P [St+1|S1, ..., St]






马尔科夫过程(马尔科夫链)A Markov Process(orMarkov Chain) is a tuple <S,P>
S
is a (finite) set of states
P is a state transition probability matrix,
Pss=P[St+1=s’ | St=s]


A Markov reward process is a Markov chain with values. 

A Markov Reward Processis a tuple <S,P,R,γ>
S
is a finite set of states
P is a state transition probability matrix,
Pss’ [S

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值