![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
csCaiRujia
这个作者很懒,什么都没留下…
展开
-
Lecture4: Model-Free Prediction
文章目录IntroductionMonte-Carlo LearningMonte-Carlo Policy Evaluation首次访问蒙特卡洛策略评估每次访问蒙特卡洛策略评估示例:二十一点游戏 Blackjack Example累进更新平均值 Incremental Mean蒙特卡洛累进更新Temporal-Difference Learning示例--驾车返回家MC 和TD的对比 一MC 和...原创 2020-03-22 20:31:01 · 278 阅读 · 0 评论 -
Lecture 3: Planing by Dynamic programming
Inreoduction动态规划问题可以把一个复杂的问题分解为多个子问题,然后通过解决这些子问题最终可以解决复杂问题。动态规划问题的两个特性:最优子结构重复子问题MDP满足这两个特性,因此可以用DP解决。Bellman方程可以递归分解Value function 可以存储并且重复使用解决的子问题Planning by DPPrediction:输入:MDP⟨S,A,P,...原创 2020-03-21 21:54:37 · 216 阅读 · 0 评论 -
Lecture2:Markov Decision Process
文章目录Markov ProcessMarkov PropertyMarkov ProcessMarkov Reward ProcessReturnValue FunctionBellman Equationbellman equantion的矩阵表示形式Markov decision ProcessExtensions to MDPsMarkov Process几乎所以的强化学习问题都可以表...原创 2020-03-15 19:46:02 · 290 阅读 · 0 评论 -
Lecture1: Introduction to Reinforcement Learning
文章目录Abour Reinforcement LearningThe Reinforcement Learning ProblemRewardEnvironmentsHistoryStateEnvironment State SteS_t^eSteAgent State StaS_t^aStaInside An RL AgentProblems with Reinforcement Lear...原创 2020-03-10 10:59:17 · 323 阅读 · 0 评论