[RL] 3 Finite Markov Decision Processes (1)

最新推荐文章于 2023-01-08 03:57:53 发布

VIP文章 hubin00sx

最新推荐文章于 2023-01-08 03:57:53 发布

阅读量703

点赞数 1

分类专栏： RL 增强学习 MDP 马尔科夫决策过程文章标签： RL 增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hubin00sx/article/details/64443024

版权

最近在学习Reinforcement Learning，参考sutton老爷爷的教材。由于最近需要在组内分享一下第三章，所以先写了这篇博客，前面两章之后补上吧。

The Agent-Environment Interface

agent : 学习者和决策者。
environment : 与agent交互、在agent外部的所有。

agent与environment持续地交互，agent选择actions（动作），environment对这些actions做出反馈，返回给agent一个新的situation（状态），并给出reward（回报）。agent需要做的就是使最终的reward最大化。

agent-environment之间的交互

图1 agent-environment之间的交互

Environment的完整定义，包括reward如何决定、task如何定义，亦即增强学习问题的实例如何定义。

图1的一些具体解释：
agent与environment之间的交互是离散地分步进行的，t = 0, 1, 2, 3, …（尽管t也可以是连续的，为了简化问题，我们采用离散时间）
在每一步t，agent会从environment获得当前state， $S_t \in \mathcal S$ ， $\mathcal S$ 是所有可能状态的集合
基于 $S_t$ ，agent会选择一个action， $A_t \in \mathcal A(S_t)$ ， $\mathcal A(S_t)$ 是状态 $S_t$ 下所有可选action的集合
一步之后，agent得到一个数值化的reward， $R_{t+1} \in \mathcal R \subset \mathbb {R}$ ，以及新的状态， $S_{t+1}$

在每一步，agent需要计算，在当前state下，选择各个action的概率， πt(a|s)=P

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[RL] 3 Finite Markov Decision Processes (1)

最近在学习Reinforcement Learning，参考sutton老爷爷的教材。由于最近需要在组内分享一下第三章，所以先写了这篇博客，前面两章之后补上吧。The Agent-Environment Interfaceagent : 学习者和决策者。environment : 与agent交互、在agent外部的所有。 agent与environment持续地交互，agent选择acti
复制链接

扫一扫

专栏目录

hubin00sx CSDN认证博客专家 CSDN认证企业博客

码龄14年

40: 原创

32万+: 周排名

95万+: 总排名

2万+: 访问

: 等级

696: 积分

23: 粉丝

30: 获赞

2: 评论

15: 收藏

私信

关注

热门文章

分类专栏

leetcode 22篇
algorithm 23篇
操作系统 4篇
分布式缓存 4篇
Memcached 3篇
Redis 1篇
Ehcache 1篇
机器学习 3篇
PRML 3篇
数学 3篇
点估计 1篇
贝叶斯学习方法 2篇
tensorflow 3篇
RL 6篇
增强学习 6篇
MDP 3篇
马尔科夫决策过程 3篇
RL-DP 2篇
RL-动态规划 2篇
NLP 1篇
word2vec 1篇
RL-MC 1篇
RL-蒙特卡洛方法 1篇

最新评论

[RL] 5 Monte Carlo Methods (1)
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客详细讲解了Monte Carlo方法的5种应用，十分有价值。我认为在下一篇博客中，可以继续探讨Monte Carlo方法在深度学习中的应用，特别是在强化学习中的应用。这样的技术文章对其他用户学习强化学习和深度学习都有很大帮助。相信会有更多读者期待你的下一篇博客。继续加油哦！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
[RL] 4 Dynamic Programming (2)
hubin00sx 回复 m0_37693127: 所谓的state变量，是与state有关的变量，这些变量的值确定后就确定了一个state 可以这么理解，state用一个m维的向量表示，那么所谓的state变量就有m个，假设每一维上可能的取值个数都为n，那么提供就有n^m个states，所以我们说states的个数和state变量个数呈指数关系
[RL] 4 Dynamic Programming (2)
m0_37693127: 实际上，states的个数与state变量的个数是成指数关系的 policy的个数和state变量的个数成指数关系？但是，我看了原文也是这么写的，有点疑惑

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。