深度强化学习
2018 年秋季伯克利大学CS 294-112《深度强化学习》课程,结合课程视频和讲义编写的。可以去看下西瓜书的关于强化学习的入门。
wamg潇潇
此人很懒,真的什么都没有写(。・ω・。)!!
展开
-
强化学习(二):马尔可夫决策过程MDP【上篇】
MDP简介 --Markov decision process马尔可夫决策过程可以更正式地描述强化学习的环境environment,其中,这个环境是完全可观测的【fully observable】,也就是当前状态完全体现了这个过程特征 ,基本上所有RL问题都可以化为MDP的形式,比如最优控制主要和连续型MDP有关。部分可观测的问题也可以转化为MDP。目录MDP简介 --Markov...原创 2019-07-17 22:50:53 · 2164 阅读 · 0 评论 -
强化学习:Introduction
参考资料:墙裂推荐:【强化学习视频】Reinforcement Learning Course by David Silver David Silver强化学习课程的ppt 《机器学习》西瓜书by周志华 2018年强化学习领域十篇重要论文(附源码) 入门推荐看...原创 2019-07-14 23:01:16 · 1213 阅读 · 0 评论 -
强化学习(三):马尔可夫决策过程MDP【下篇】
目录马尔可夫决策过程MDP: a Markov reward process with decisions策略值函数Bellman 期望公式Bellman期望公式 的矩阵形式最优值函数 Optimal Value Function最优策略 Bellman最优方程Optimality EquationMDPs 的扩展Ergodic Markov P...原创 2019-09-29 11:49:26 · 2423 阅读 · 1 评论 -
强化学习【三】:动态规划问题
·目录Policy Evaluation(策略评估)Iterative Policy Evaluation (迭代策略估计)例子:方格游戏策略迭代 policy iteration策略改进 Policy ImprovementModified Policy Iteration广义的策略迭代值迭代 Value Iteration同步DP: Synchronous...原创 2019-09-30 16:38:14 · 3772 阅读 · 5 评论