Reinforcement Learning
JK-Ray
拒绝拖延症
展开
-
David Silver《Reinforcement Learning》课程解读—— Lecture 2: Markov Decision Process
David Silver《Reinforcement Learning》课程解读 Section 2Lecture 2: Markov Decision ProcessMDPs正式描述了强化学习的环境,几乎所有的强化学习问题都可以描述为MDPs。1. Markov Process用于描述RL的环境,该环境完全可观(如当前状态完整描述了整个过程)。特性无后效/ 记忆性状态转移矩阵Pss′P_{s原创 2017-06-02 08:13:29 · 2640 阅读 · 0 评论 -
David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning
David Silver《Reinforcement Learning》课程解读前段时间学习了UCL讲师、AlphaGo项目的主程序员David Silver的课程Reinforcement Learning,手写了30多页学习笔记,可以说学得很浅,整个知识网络掌握得不够有连贯性,为了将整个课程的体系做一个梳理,写下此篇博文。课程ppt和视频资料在网上很容易搜索,此处不再提供。课程目录:Lectu原创 2017-05-30 19:53:24 · 4830 阅读 · 4 评论 -
David Silver《Reinforcement Learning》课程解读—— Lecture 3: Planning by Dynamic Programming
David Silver《Reinforcement Learning》课程解读—— Lecture 3: Planning by Dynamic ProgrammingDP用来解决MDPs的planning问题,主要解决途径有policy iteration和value iteration。目录:IntroductionPolicy EvaluationPolicy IterationVa原创 2017-06-07 01:25:07 · 1908 阅读 · 0 评论 -
David Silver《Reinforcement Learning》课程解读—— Lecture 4: Model-Free Prediction
David Silver《Reinforcement Learning》课程解读—— Lecture 4: Model-Free PredictionDP动态规划能够解决已知environment的MDP问题,即已知S,A,P,R,γ S,A,P,R,γ,根据是否已知policy又将问题划分为prediction和control的问题。本质上来说这种known MDP问题已知environment即原创 2017-06-22 10:35:12 · 952 阅读 · 2 评论 -
David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control
David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control上次课谈到了在给定policy的情况下求解未知environment的MDP问题,称之为Model-Free Prediction问题。本节则是解决未知policy情况下未知environment的MDP问题,也就是Model-Free Control问题,原创 2017-09-08 08:54:41 · 1260 阅读 · 1 评论