[RL] 3 Finite Markov Decision Processes (3)

最新推荐文章于 2020-11-01 20:45:15 发布

VIP文章 hubin00sx

最新推荐文章于 2020-11-01 20:45:15 发布

阅读量455

点赞数

分类专栏： RL 增强学习 MDP 马尔科夫决策过程文章标签： RL 增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hubin00sx/article/details/65438023

版权

Previous Blog

在开始新的内容之前，我们先回顾一下前两篇博客[RL] 3 Finite Markov Decision Processes (1) 、[RL] 3 Finite Markov Decision Processes (2)给出的重要概念和式子：

state：
$S_t = s \in \mathcal S$
action：
$A_t = a \in \mathcal A(S_t)$
reward：
$R_t = r \in \mathcal R \subset \mathbb{R}$
policy：
$\pi_t(a \mid s) = Pr(A_t = a \mid S_t = s)$
return：
$G_t \doteq \sum_{k=0}^{T-t-1}\gamma^kR_{t+k+1}$
markov property：
$p (s', r ∣ s, a) ≐ P r {S t + 1 = s', R t + 1 = r ∣ S t = s, A t = a} (1.1)$ $p(s',r \mid s,a) \doteq Pr\{S_{t+1}=s',R_{t+1}=r \mid S_t=s,A_t=a\}\,\,\,\,\,\,\,\,\,\,\,(1.1)$
expected reward for state-action：
$r (s, a) ≐ E [R t + 1 ∣ S t = s, A t = a] = \sum r \in R r \sum s' \in S p (s', r ∣ s, a) (1.2)$ $r(s,a)\doteq \mathbb{E}[R_{t+1} \mid S_t=s,A_t=a] = \sum_{r \in \mathcal R}r\sum_{s' \in \mathcal S}p(s',r \mid s,a)\,\,\,\,\,\,\,\,\,\,\,\,(1.2)$
state-transition probability：
$p (s' ∣ s, a) ≐ P r {S t + 1 = s' ∣ S t = s, A t = a} = \sum r \in R p (s', r ∣ s, a) (1.3)$ $p(s'\mid s,a)\doteq Pr\{S_{t+1}=s'\mid S_t=s,A_t=a\}=\sum_{r\in \mathcal R}p(s',r\mid s,a)\,\,\,\,\,\,\,\,\,\,\,\,\,(1.3)$
expected reward for state-action-nextState：
$r (s, a, s') ≐ E [R t + 1 ∣ S t = s, A t = a, S t + 1 = s'] = \sum r \in R r p ( s ' , r ∣ s , a ) p ( s ' ∣ s , a ) (1.4)$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[RL] 3 Finite Markov Decision Processes (3)

Previous Blog 在开始新的内容之前，我们先回顾一下前两篇博客[RL] 3 Finite Markov Decision Processes (1) 、[RL] 3 Finite Markov Decision Processes (2)给出的重要概念和式子：state： St=s∈SS_t = s \in \mathcal Saction： At=a∈A(St
复制链接

扫一扫

专栏目录

hubin00sx CSDN认证博客专家 CSDN认证企业博客

码龄14年

40: 原创

32万+: 周排名

95万+: 总排名

2万+: 访问

: 等级

696: 积分

23: 粉丝

30: 获赞

2: 评论

15: 收藏

私信

关注

热门文章

分类专栏

leetcode 22篇
algorithm 23篇
操作系统 4篇
分布式缓存 4篇
Memcached 3篇
Redis 1篇
Ehcache 1篇
机器学习 3篇
PRML 3篇
数学 3篇
点估计 1篇
贝叶斯学习方法 2篇
tensorflow 3篇
RL 6篇
增强学习 6篇
MDP 3篇
马尔科夫决策过程 3篇
RL-DP 2篇
RL-动态规划 2篇
NLP 1篇
word2vec 1篇
RL-MC 1篇
RL-蒙特卡洛方法 1篇

最新评论

[RL] 5 Monte Carlo Methods (1)
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客详细讲解了Monte Carlo方法的5种应用，十分有价值。我认为在下一篇博客中，可以继续探讨Monte Carlo方法在深度学习中的应用，特别是在强化学习中的应用。这样的技术文章对其他用户学习强化学习和深度学习都有很大帮助。相信会有更多读者期待你的下一篇博客。继续加油哦！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
[RL] 4 Dynamic Programming (2)
hubin00sx 回复 m0_37693127: 所谓的state变量，是与state有关的变量，这些变量的值确定后就确定了一个state 可以这么理解，state用一个m维的向量表示，那么所谓的state变量就有m个，假设每一维上可能的取值个数都为n，那么提供就有n^m个states，所以我们说states的个数和state变量个数呈指数关系
[RL] 4 Dynamic Programming (2)
m0_37693127: 实际上，states的个数与state变量的个数是成指数关系的 policy的个数和state变量的个数成指数关系？但是，我看了原文也是这么写的，有点疑惑

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。