强化学习:Markov&POMDP

Markov&POMDP

Markov

首先,马尔可夫过程的大概意思就是**未来只与现在有关,与过去无关。**即定义如下:
F t n , t 1 , t 2 … … . t n − 1 ( x n ∣ x 1 , x 2 … … x n 1 ) = F t n t n − 1 ( x n ∣ x n 1 ) F_{t_{n}, t_{1}, t_{2} \ldots \ldots . t_{n-1}}\left(x_{n} \mid x_{1}, x_{2} \ldots \ldots x_{n} 1\right)=F_{t_{n} t_{n-1}}\left(x_{n} \mid x_{n} 1\right) Ftn,t1,t2.tn1(xnx1,x2xn1)=Ftntn1(xnxn1)
这种“下一时刻的状态至于当前状态有关,与上一时刻状态无关”的性质,称为无后效性或者马尔可夫性。而具有这种性质的过程就称为马尔可夫过程。
在马尔可夫过程中有两个比较重要的概念:转移分布函数、转移概率

马氏过程 X t X_{t} Xt,称条件概率 F s , t = P { X t ≤ y ∣ X s = x } F_{s, t}=P\left\{X_{t} \leq y \mid X_{s}=x\right\} Fs,t=P{XtyXs=x}为过程的转移分布函数。
其条件概率 f t n ∣ t n − 1 ( x n ∣ x n 1 ) f_{t_{n} \mid t_{n-1}}\left(x_{n} \mid x_{n} 1\right) ftntn1(xnxn1)为转移概率密度,
P ( X t n = x n ∣ X t n = x n − 1 ) P\left(X_{t_{n}}=x_{n} \mid X_{t_{n}}=x_{n-1}\right) P(Xtn=xnXtn=xn1)为转移概率

POMDP

部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,缩写:POMDP),是一种通用化的马尔可夫决策过程。POMDP必须要根据模型的全域与部分区域观察结果来推断状态的分布,即对不完全状态信息进行建模,依据当前的确实信息做出决策,提高算法的泛化能力。
POMDP是可以用一个六元组(S,A,T,R,Z,O)描述,其中S表示系统所处环境的状态集合,其都是部分可观测的;;A表示动作的有限集合;Z表示观测值的有限集合;T:S×A→π(S)是状态转移函数;R:S×A→R是奖励函数;O:S×A→π(Z)是状态和系统所做动作给出的观测函数。

讨论

由于agent不直接观察environment的状态,因此agent必须在真实环境状态的不确定性下做出决策。然而,通过与环境交互并接收观察,agent可以通过更新当前状态的概率分布来更新其对真实状态的信念。这种性质的结果是最佳行为通常可能包括信息收集行动,这些行动纯粹是因为它们改善了agent人对当前状态的估计,从而使其能够在未来做出更好的决策。
将上述定义与马尔可夫决策过程的定义进行比较是有益的。 MDP(Markov decision process)不包括观察集,因为代理总是确切地知道环境的当前状态。或者,通过将观察组设定为等于状态组并定义观察条件概率以确定性地选择对应于真实状态的观察,可以将MDP重新表述为POMDP。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值