状态-动作回报 State-action Rewards
在之前的讨论中,我们认为回报只是状态的函数,即R:S->R(实数),现在我们将其扩展为状态和动作的函数,即R:S*A->R(实数)。
此时Bellman等式为 V*(s)=max [ R(s, a)+γΣsiPsa(s`)V*(s`)
有限边界马尔科夫决策过程 Finite Horizon MDP
我们之前介绍的MDP由五元组(S,A,{Psa},γ,R)描述,其中γ是一个小于1的非负数,表达了未来对当今决策的影响,当未来的时间比较远时,γ的指数次已经接近于0,对决策基本没有影响,近似的起到了一个边界的作用,下面我们将介绍有限边界MDP模型,这一模型对边界提出了更明显的要求。
一个有限边界MDP模型同样包括一个五元组,但其为(S,A,{Psa},T,R),即用边界时间Horizon Time参数取代了γ,这一参数暗含整个决策过程不平稳non-stationary,即最优决策可能是时间的函数,一个简单的例子为:我需要3s可以拿到5分,需要10s拿到10分,但我只有5s的时间,此时我的最优决策为去拿那5分,但如果我有20s的时间,我肯定选择去拿10分。
将时间考虑进来后,我们可将最优价值函数改写为
Vt*(s)=E[Rt(st, at)+...+RT(sT,