![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
一口大怪兽
那个努力毕业的圆滚滚~
展开
-
强化学习读书笔记
目录Chapter 1 Introduction强化学习定义监督/非监督/强化学习挑战关键特征组成Chapter 2 Multi-armed Bandits评价型反馈和指导型反馈A k-armed Bandit ProblemIncremental ImplementationChapter 3 Finite Markov Decision ProcessesAgent-EnvironmentRe...原创 2019-02-28 17:26:32 · 485 阅读 · 0 评论 -
强化学习常用算法比较
目录Dynamic ProgrammingMonte Carlo MethodsTemporal-Difference Learningn-step BootstrappingDQN背景改进Dynamic Programming思路:利用Bellman方程迭代,每次迭代过程中,用所有的状态s的第k次迭代得到的vk(s’)来计算第k+1次的vk+1(s)的值。经过这种方法的反复迭代,最终可以...原创 2019-02-28 17:47:39 · 2986 阅读 · 0 评论