马科夫决策过程(Markov Decision Process,MDP)

一个MDP模型包含:

  1. 状态集合 S
  2. 行为结合A
  3. 奖励函数 R(s,a)
  4. 状态转移矩阵 T
    1. 确定性转移S×AS
    2. 概率性转移 S×AProb(S)
    • 行为策略 π : SA
      在状态 s 下的应采取的最佳行为a: a=π(s)
    • 评价策略 π 的好坏

      在状态 s 下,策略π到底好不好呢?应该要有一个量化的评估。

      价值函数

      Bellman等式

      价值函数 Vπ(s) 代表了 π s 下获得的奖励期望,它的计算是一个递归的过程。
      Vπ(s)=R(s,π(s))+sST(s,π(s),s)γVπ(s)

      其中,
      R(s,π(s)) :在状态 s 下采取行为π(s)的奖励
      T(s,π(s),s) :在状态 s 下采取行为π(s)后,转移到新状态 s 的概率
      γ :奖励折扣,取值在[0.0,1.0]。它的引入是为了使期望计算不趋于

      有限视野的Bellman等式

      运行有限步骤n的Bellman等式
      Vπ(s),0=R(s,π(s))
      Vπ(s),n=R(s,π(s))+sST(s,π(s),s)γVπ(s),n1

      To be continued…

      参考:www.cs.rice.edu/~vardi/dag01/givan1.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值