马科夫决策过程（Markov Decision Process，MDP）

最新推荐文章于 2024-05-28 13:57:27 发布

vincent2610

最新推荐文章于 2024-05-28 13:57:27 发布

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：马可夫决策过程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vincent2610/article/details/54377754

版权

机器学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

一个MDP模型包含：

状态集合 $S$
行为结合 $A$
奖励函数 $R(s,a)$
状态转移矩阵 T
1. 确定性转移 $S\times A\rightarrow S$
2. 概率性转移 $S\times A\rightarrow Prob(S)$
- 行为策略 $\pi$ : $S\rightarrow A$
  在状态 $s$ 下的应采取的最佳行为 $a$ : $a=\pi(s)$
- 评价策略 $\pi$ 的好坏
  
  在状态 $s$ 下，策略 $\pi$ 到底好不好呢？应该要有一个量化的评估。
  
  价值函数
  
  Bellman等式
  
  价值函数 $V_\pi(s)$ 代表了 $\pi$ 在 $s$ 下获得的奖励期望，它的计算是一个递归的过程。
  $V_\pi(s)=R(s,\pi(s))+\sum_{s'\in S}T(s,\pi(s),s')\cdot\gamma\cdot V_\pi(s')$
  
  其中，
  $R(s,\pi(s))$ ：在状态 $s$ 下采取行为 $\pi(s)$ 的奖励
  $T(s,\pi(s),s')$ ：在状态 $s$ 下采取行为 $\pi(s)$ 后，转移到新状态 $s'$ 的概率
  $\gamma$ ：奖励折扣，取值在[0.0,1.0]。它的引入是为了使期望计算不趋于 $\infty$
  
  有限视野的Bellman等式
  
  运行有限步骤n的Bellman等式
  $V_{\pi(s),0}=R(s,\pi(s))$
  $V_{\pi(s),n}=R(s,\pi(s))+\sum_{s'\in S}T(s,\pi(s),s')\cdot\gamma\cdot V_{\pi(s'),n-1}$
  
  To be continued…
  
  参考：www.cs.rice.edu/~vardi/dag01/givan1.pdf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
马科夫决策过程（Markov Decision Process，MDP）

一个MDP模型包含：状态集合SS行为结合AA奖励函数R(s,a)R(s,a)状态转移矩阵TT 确定性转移S×A→SS\times A\rightarrow S概率性转移S×A→Prob(S)S\times A\rightarrow Prob(S)行为策略π\pi: S→AS\rightarrow A 在状态ss下的应采取的最佳行为aa:a=π(s)a=\pi(s)评价策略π\pi的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。