1. MDP近似与QMDP近似
MDP近似公式:
MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.
2. FastInformed Bound Method近似
如下图所示:
此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值,而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略,而实际中每一步只能运用一个策略,故FIB的值要大于精确算法。
也就是说,解决FIB近似问题相当于解决一个含有|S||A||o|个状态,|A|个行动的MDP。
3. 比较:
V(精确)<V(FIB)<V(QMDP)<V(MDP)
总而言之,信息越多,做的越好,函数值越大。