【二十】策略搜索

部分可观测马尔科夫决策过程 Partially Observable MDPs POMDPs

在上一讲中我们介绍了Kalman Filter方法,这一方法讨论了我们只能通过观测而不能通过直接获得的方式得到状态s,观测的结果可能相对状态有一定的偏差,Kalman Filter把这当作一个隐马尔科夫模型来处理HMM,在这一讲中,我们将更深入的讨论这一问题,将其推广到更一般的形式,这一问题称为部分可观测MDP问题,一般而言,这是一个NP-hard问题(Kalman Filter的方法只是一个特例)。

在POMDPs算法中,我们将之前的五元组扩展为七元组,即(S,A,Y,{Psa},{Os},T,R),其中

Y表示可能的观测结果的集合

Os表示在状态s下,观测结果的分布矩阵

显然在这一过程的每一步中,我们的观测结果Y~Os


策略搜索算法 Policy Search Algorithm

在上一讲中,我们为了得到状态转化的方程,构建了函数St+1 = ASt + Bat + wt,我们重点讲解了如何得到拟合系数的过程,但为了解决POMDPs问题,由于其是一个NP-hard问题,我们不能通过计算获得拟合的系数,此时我们通过策略搜索算法获得求解。

在策略搜索算法中,我们提出两个新的定义:

(1)我们定义一个策略集Π作为所有可能集合的合集,我们通过对集合Π进行搜索,找到其中可以获得最优结果的策略π(这一思想类似于我们在监督学习中定义将涉及H的过

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值