自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

hubin00sx的博客

hubin00sx CSDN认证博客专家 CSDN认证企业博客

码龄14年

40: 原创

31万+: 周排名

169万+: 总排名

2万+: 访问

: 等级

698: 积分

23: 粉丝

30: 获赞

2: 评论

15: 收藏

私信

关注

热门文章

分类专栏

leetcode 22篇
algorithm 23篇
操作系统 4篇
分布式缓存 4篇
Memcached 3篇
Redis 1篇
Ehcache 1篇
机器学习 3篇
PRML 3篇
数学 3篇
点估计 1篇
贝叶斯学习方法 2篇
tensorflow 3篇
RL 6篇
增强学习 6篇
MDP 3篇
马尔科夫决策过程 3篇
RL-DP 2篇
RL-动态规划 2篇
NLP 1篇
word2vec 1篇
RL-MC 1篇
RL-蒙特卡洛方法 1篇

最新评论

[RL] 5 Monte Carlo Methods (1)
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客详细讲解了Monte Carlo方法的5种应用，十分有价值。我认为在下一篇博客中，可以继续探讨Monte Carlo方法在深度学习中的应用，特别是在强化学习中的应用。这样的技术文章对其他用户学习强化学习和深度学习都有很大帮助。相信会有更多读者期待你的下一篇博客。继续加油哦！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
[RL] 4 Dynamic Programming (2)
hubin00sx 回复 m0_37693127: 所谓的state变量，是与state有关的变量，这些变量的值确定后就确定了一个state 可以这么理解，state用一个m维的向量表示，那么所谓的state变量就有m个，假设每一维上可能的取值个数都为n，那么提供就有n^m个states，所以我们说states的个数和state变量个数呈指数关系
[RL] 4 Dynamic Programming (2)
m0_37693127: 实际上，states的个数与state变量的个数是成指数关系的 policy的个数和state变量的个数成指数关系？但是，我看了原文也是这么写的，有点疑惑

最新文章

RL-MC

关注

文章平均质量分 95

关注数：文章数：1 文章阅读量：1640 文章收藏量：1

作者: hubin00sx

这个作者很懒，什么都没留下…

展开

[RL] 5 Monte Carlo Methods (1)

——清明给自己放了假，见了高中老铁和他妻子，谨以此博客献给这幸福的一对，就这样度过一生哦:) 我们开始讲我们的第一个估计value functions、发现optimal policies的学习方法。由于这一系列[RL]的博客都是围绕着增强学习问题讲的，因此建议从[RL] 3 Finite Markov Decision Processes (1)看起，至少需要了解建好的MDP模型。与

原创 2017-04-05 23:20:11 · 1640 阅读 · 0 评论