Reinforcement Learning
文章平均质量分 92
基于CS234强化学习课程学习,课件来源:https://github.com/Zhenye-Na/reinforcement-learning-stanford
误伤这又何妨
你应该认识我
展开
-
无模型策略评估算法(Monte Carlo and Temporal Difference)
本文介绍了两种无模型策略(Monte Carlo和Temporal Different)的逻辑过程及代码实现,希望可以帮助到大家。原创 2023-09-23 20:25:36 · 148 阅读 · 1 评论 -
初识Reinforcement Learing
强化学习(Reinforcement Learning)在百度上的解释是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。在我的理解里,强化学习就是用了解决庞大而又复杂问题的一种方式,这通常是最优化问题。用CS234中的一句话解释就是:一个著名的例子:AlphaGo。如果不用 RL 的话,用穷举来解决这个问题可以吗?说实话,肯定是可以的,但这个程序就会十分复杂而且运行起来十分缓慢,那这,又有什么意义呢?这时强化学习就派出了用场。原创 2023-09-15 15:20:22 · 36 阅读 · 0 评论 -
马尔可夫链决策过程(Markov decision process)
本文讨论如何应用强化学习中经典模型----马尔可夫链模型对外界信息进行正确处理,包含大量数学推导,但会尽量使用直白的话语让你对Markov chain有所了解。如果你要使用该模型,必须要满足一个条件p(st+1∣st,at)=p(st+1∣sh,at)p(s_{t+1}|s_t, a_t) = p(s_{t+1}|s_h, a_t)p(st+1∣st,at)=p(st+1∣sh,at)即agent所做的决定仅受当前状态的影响。这是一个大前提,那如何做到这一点呢?只有一种办法即保证st原创 2023-09-19 13:02:55 · 388 阅读 · 0 评论