强化学习笔记
滑稽树
游戏开发者
展开
-
Chapter 1 Introduction
强化学习的主要组成:agent, environment, a policy, a reward signal, a value function, [a model of the environment]Reinforcement learning is a computational approach to understanding and automating goal-directe...原创 2018-05-25 11:17:23 · 279 阅读 · 0 评论 -
Chapter 8 Planning and Learning with Tabular Methods
Model-based方法依赖于planning,将模型作为输入并产生或改进与模拟环境交互的策略; Model-free方法依赖于learning,将环境的真实experience作为输入; 现在把两种方法结合起来。8.1 Models and Planning...原创 2018-06-27 02:34:37 · 704 阅读 · 0 评论 -
Chapter 9 On-policy Prediction with Approximation
On-policy Prediction with Approximation原创 2018-07-08 14:31:13 · 725 阅读 · 0 评论 -
Chapter 7 n-step Bootstrapping
核心思想就是在做bootstrapping之前再向前多走几步7.1 n-step TD Prediction temporal difference 扩展了n步,这就被称为n-step TD methodsn-step returns Gt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γnVt+n−1(Stn)Gt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γ...原创 2018-06-08 22:07:07 · 917 阅读 · 0 评论 -
Chapter 6 Temporal-Difference Learning
TODO原创 2018-06-08 00:33:48 · 358 阅读 · 0 评论 -
Chapter 5 Monte Carlo Methods
不像以前章节,这里不假设有complete knowledge of the environment。 不需要完美的model,只要有experiences就行,用episodes表示,一个episode就是一个完整的从开始到结束的state、action、reward序列。蒙特卡洛方法的特点就是要使用整个序列,举例来说就是必须在一个episode结束后得到了整个序列才能使用蒙特卡洛方法。...原创 2018-05-27 11:53:22 · 417 阅读 · 0 评论 -
Chapter 4 Dynamic Programming
本笔记参考《Reinforcement Learning: An Introduction》和 David Silver的公开课及其pptDavid Silver的课程在Tabular Soluction上介绍的比较多。可以配合David Silver的课程来理解《Reinforcement Learning: An Introduction》这本书的内容DP指的是一组算法,可以用来...原创 2018-05-26 19:12:12 · 273 阅读 · 0 评论 -
Chapter3 Markov Decision Processes(MDP)
Finite Markov Decision ProcessesMDPs are a classical formalization of sequential decision making, where actions influence not just immediate rewards, but also subsequent situations, or states, and t...原创 2018-05-25 20:34:19 · 663 阅读 · 0 评论 -
Chapter 2 Multi-armed Bandits
本文为看《reinforcement learning :an introduction》时的笔记总结标题解释为:多臂老虎机因为我最开始看的时候不知道这个名词的意思这一章基本上把后面要讲到的所有方法都简介了一遍,初步了解这些方法对理解后面的内容很有帮助1. A k-armed Bandit该问题指老虎机,有k个臂,对应k个不同的options或actions。在每次...原创 2018-05-25 11:56:46 · 783 阅读 · 0 评论 -
对Tabular方法的总结
sample model比distribution model模型更容易获得对于人工智能问题,value function, backing up value updates, and GPI是非常有用的组织规范。上图说到了两个维度,第三个维度是on-policy与off-policy方法。...原创 2018-06-28 01:50:27 · 8819 阅读 · 0 评论