基于蒙特卡罗的VOI(Value of Information)

最新推荐文章于 2022-12-29 15:34:47 发布

置顶哈鲤哈鲤路丫

最新推荐文章于 2022-12-29 15:34:47 发布

阅读量983

点赞数

分类专栏： AI 文章标签：算法 VOI AI MCTS pomdp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010296599/article/details/56672022

版权

AI 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

MC-VOI

MC-VOI for stastic

下面将列出计算VOI的过程：

纵观整个算法，这是一个通过模拟未来多个步骤，来对当前所在状态的下一步做出最优决策的过程。

设在当前系统中，包含两类action, A[c, ¬c ]。

在程序执行模拟未来的action时，遇到action c 会收集observation o, 并由当前状态的 belief state b, action c, 以及由action c 触发观测到的 observation o 更新下一深度的 belief state，将新的belief 节点添加到搜索树的当前路径中，直到遇到action ¬c；

如果遇到action ¬c，在当前路径下的模拟会终止，并根据当前的 terminal belief state 取样一个 state，这个state用来计算VOI，包括计算执行 action ¬c 时的期望值和执行 action ¬c之前一条完整搜索路径上每一个action c的期望值。在计算每一个 action c 的期望值时，从建立在“未来”的基础上，即从后向前看，一直计算到初始状态的 belief state。

通过从初始状态的 belief state开始，比较模拟过程中执行action c 和 action ¬c的差值，为系统做出真正的决策。

值得注意的几点：
模拟过程的退出条件是直到time out，在指定搜索树深度的情况下，用N来记录一整条搜索路径在模拟过程中重复的次数。
在整个模拟过程中，统计执行action ¬c 和执行action c 的重复次数是全局累加的。

哈鲤哈鲤路丫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于蒙特卡罗的VOI(Value of Information)

MC-VOIMC-VOI for stastic下面将列出计算VOI的过程：纵观整个算法，这是一个通过模拟未来多个步骤，来对当前所在状态的下一步做出最优决策的过程。设在当前系统中，包含两类action, A[c, ¬c ]。在程序执行模拟未来的action时，遇到action c 会收集observation o, 并由当前状态的 b
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。