基于蒙特卡罗的VOI(Value of Information)

MC-VOI

  • MC-VOI for stastic

    下面将列出计算VOI的过程:

    纵观整个算法,这是一个通过模拟未来多个步骤,来对当前所在状态的下一步做出最优决策的过程。

    设在当前系统中,包含两类action, A[c, ¬c ]。

    在程序执行模拟未来的action时,遇到action c 会收集observation o, 并由当前状态的 belief state b, action c, 以及由action c 触发观测到的 observation o 更新下一深度的 belief state,将新的belief 节点添加到搜索树的当前路径中,直到遇到action ¬c;

    如果遇到action ¬c,在当前路径下的模拟会终止,并根据当前的 terminal belief state 取样一个 state,这个state用来计算VOI,包括计算执行 action ¬c 时的期望值和执行 action ¬c之前一条完整搜索路径上每一个action c的期望值。在计算每一个 action c 的期望值时,从建立在“未来”的基础上,即从后向前看,一直计算到初始状态的 belief state。

    通过从初始状态的 belief state开始,比较模拟过程中执行action c 和 action ¬c的差值,为系统做出真正的决策。

    值得注意的几点:
    模拟过程的退出条件是直到time out,在指定搜索树深度的情况下,用N来记录一整条搜索路径在模拟过程中重复的次数。
    在整个模拟过程中,统计执行action ¬c 和执行action c 的重复次数是全局累加的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值