部分可观测马尔科夫决策过程 Partially Observable MDPs POMDPs
在上一讲中我们介绍了Kalman Filter方法,这一方法讨论了我们只能通过观测而不能通过直接获得的方式得到状态s,观测的结果可能相对状态有一定的偏差,Kalman Filter把这当作一个隐马尔科夫模型来处理HMM,在这一讲中,我们将更深入的讨论这一问题,将其推广到更一般的形式,这一问题称为部分可观测MDP问题,一般而言,这是一个NP-hard问题(Kalman Filter的方法只是一个特例)。
在POMDPs算法中,我们将之前的五元组扩展为七元组,即(S,A,Y,{Psa},{Os},T,R),其中
Y表示可能的观测结果的集合
Os表示在状态s下,观测结果的分布矩阵
显然在这一过程的每一步中,我们的观测结果Y~Os
策略搜索算法 Policy Search Algorithm
在上一讲中,我们为了得到状态转化的方程,构建了函数St+1 = ASt + Bat + wt,我们重点讲解了如何得到拟合系数的过程,但为了解决POMDPs问题,由于其是一个NP-hard问题,我们不能通过计算获得拟合的系数,此时我们通过策略搜索算法获得求解。
在策略搜索算法中,我们提出两个新的定义:
(1)我们定义一个策略集Π作为所有可能集合的合集,我们通过对集合Π进行搜索,找到其中可以获得最优结果的策略π(这一思想类似于我们在监督学习中定义将涉及H的过