部分可观测Markov决策过程的上界近似算法


1. MDP近似与QMDP近似

        MDP近似公式:

            

MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.

                

2. FastInformed Bound Method近似

                 

                如下图所示:

                  

  此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值,而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略,而实际中每一步只能运用一个策略,故FIB的值要大于精确算法。

也就是说,解决FIB近似问题相当于解决一个含有|S||A||o|个状态,|A|个行动的MDP。

3.   比较:

V(精确)<V(FIB)<V(QMDP)<V(MDP)

总而言之,信息越多,做的越好,函数值越大。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值