部分可观测Markov决策过程的上界近似算法

最新推荐文章于 2024-09-16 14:46:49 发布

beiger

最新推荐文章于 2024-09-16 14:46:49 发布

阅读量2.7k

点赞数 1

分类专栏： POMDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/beiger/article/details/40557681

版权

POMDP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. MDP近似与QMDP近似

MDP近似公式:

MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.

2. FastInformed Bound Method近似

如下图所示:

此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值，而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略，而实际中每一步只能运用一个策略，故FIB的值要大于精确算法。

也就是说，解决FIB近似问题相当于解决一个含有|S||A||o|个状态，|A|个行动的MDP。

3. 比较：

V(精确)<V(FIB)<V(QMDP)<V(MDP)

总而言之，信息越多，做的越好，函数值越大。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。