Reinforcement Learning_误伤这又何妨的博客-CSDN博客

Reinforcement Learning

关注

文章平均质量分 92

基于CS234强化学习课程学习，课件来源：https://github.com/Zhenye-Na/reinforcement-learning-stanford

关注数：文章数：3 文章阅读量：665 文章收藏量：2

作者: 误伤这又何妨

你应该认识我

展开

无模型策略评估算法（Monte Carlo and Temporal Difference）

本文介绍了两种无模型策略（Monte Carlo和Temporal Different）的逻辑过程及代码实现，希望可以帮助到大家。

原创 2023-09-23 20:25:36 · 171 阅读 · 1 评论
初识Reinforcement Learing

强化学习（Reinforcement Learning）在百度上的解释是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。在我的理解里，强化学习就是用了解决庞大而又复杂问题的一种方式，这通常是最优化问题。用CS234中的一句话解释就是：一个著名的例子：AlphaGo。如果不用 RL 的话，用穷举来解决这个问题可以吗？说实话，肯定是可以的，但这个程序就会十分复杂而且运行起来十分缓慢，那这，又有什么意义呢？这时强化学习就派出了用场。

原创 2023-09-15 15:20:22 · 47 阅读 · 0 评论
马尔可夫链决策过程（Markov decision process）

本文讨论如何应用强化学习中经典模型----马尔可夫链模型对外界信息进行正确处理，包含大量数学推导，但会尽量使用直白的话语让你对Markov chain有所了解。如果你要使用该模型，必须要满足一个条件p(st+1∣st,at)=p(st+1∣sh,at)p(s_{t+1}|s_t, a_t) = p(s_{t+1}|s_h, a_t)p(st+1∣st,at)=p(st+1∣sh,at)即agent所做的决定仅受当前状态的影响。这是一个大前提，那如何做到这一点呢？只有一种办法即保证st

原创 2023-09-19 13:02:55 · 448 阅读 · 0 评论

Reinforcement Learning

作者: 误伤这又何妨

无模型策略评估算法（Monte Carlo and Temporal Difference）

初识Reinforcement Learing

马尔可夫链决策过程（Markov decision process）