David Silver强化学习课程笔记
微丶念
所谓的不感兴趣,仅仅只是自己没有做好而已。
展开
-
David Silver强化学习课程笔记(一)
大家好,我是微念。 国庆这些天大致学习了一下David Silver的强化学习课程,感觉挺受用的,大家可以去百度云盘(无字幕版本)下载视频,或者去B站搜索观看(有字幕版本),课程课件下载地址为David Silver课程课件。 下面将我学习这门课程视频的一些笔记记录下来,便于以后查看。 第一课:强化学习简介 1.强...原创 2017-10-10 20:08:05 · 10566 阅读 · 2 评论 -
David Silver强化学习课程笔记(二)
第二课:马尔科夫决策过程 为什么要讲马尔科夫决策过程?因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程(MDP)的形式,比如说:最优控制主要是处理连续MDP问题、任何部分可观测的问题都可以转化为MDP问题、bandits都是仅有一个状态的MDP问题。这里的bandit是一种最为简单的马尔科夫问题:给你一组actions,然后你选择一个action,从而得到reward,仅此...原创 2017-10-11 18:28:05 · 6052 阅读 · 16 评论 -
David Silver强化学习课程笔记(三)
第三课:动态规划 课程标题本来是“Planning by Dynamic Programming”,应该翻译为”利用动态规划方法进行规划“,但是感觉有点长,所以就使用”动态规划“作为标题,大家理解就好...... 先说下这节课讲的主要内容,主要有:策略估计、策略迭代、值迭代、动态规划扩展、收缩映射定理。其中策略估计主要介绍如何利用迭代方法对策略的值函数进行估计,也即我们...原创 2017-10-12 18:22:16 · 9443 阅读 · 14 评论 -
David Silver强化学习课程笔记(四)
第四课:模型无关的预测 在进入正题之前,先说点题外话哈,等《David Silver课程学习笔记》系列更新完成之后,我们将会更新《PRML学习笔记》以及《RL学习笔记》,到时候希望大家多多指教哟~ 在第三课中,我们介绍了动态规划方法(DP),提到DP既可用于预测,也可用于控制,但是不管怎么说,这种方法总是离不开模型的: ...原创 2017-10-14 13:35:22 · 4992 阅读 · 22 评论 -
David Silver强化学习课程笔记(五)
第五课:模型无关的控制 本文主要介绍模型无关的控制,包括同策略方法(On-Policy,也译作“在策略”)和异策略(Off-Policy,也译作“离策略”)方法,由于是模型无关,因此本文聊的是学习(learning),而不是规划(planning)。 1.简介 在第一课中我们说到了预测和控制的区别,这里就不再赘述,下面我们主要聊一下同策略方法和异...原创 2017-10-15 09:28:45 · 7283 阅读 · 8 评论 -
David Silver强化学习课程笔记(六)
第六课:值函数估计 好久没有写这个专栏了,现在来补一课,不然前面的都忘掉了~ 本文主要讨论值函数的估计问题,主要研究两类方法:增量方法(Incremental Methods)、批方法(Batch Methods)。其中增量方法主要是从online方面考虑。批方法主要是从data efficient方面考虑。 在模型无关的预测中,我们介绍了如何...原创 2017-11-18 21:01:31 · 3479 阅读 · 11 评论 -
David Silver强化学习课程笔记(七)
第七课:策略梯度方法 最近在瞎忙,以致于离上一篇本专栏博客已经过去三个月了,春节在家准备写一写,又因为懒而没有下笔,今天是放假最后一天,所以准备安慰安慰自己,至少一个假期得做了点东西对吧,哈哈,不过我是认真写的,下面我们开始本课的介绍。 本文主要介绍策略梯度方法,它是策略搜索方法的一种。我们将从Policy-Based RL的优势进行引入,重点介绍score f...原创 2018-02-25 13:43:30 · 4974 阅读 · 8 评论 -
David Siver强化学习课程笔记(八)(上)
第八课(上):学习与规划的结合 我们在《第一课:强化学习简介》中聊到过学习与规划的概念,它们的本质区别是:“学习”时,智能体并未对环境进行建模,因此只能与实际环境交互,从而在trial-and-error中学习;而“规划”时,智能体在自己的脑海中对环境构建了一个模型(虽然不一定准确),然后自己与这个模型进行交互,在该模型中进行推演,从而对策略进行改进。这两种方法各有利弊:“学习”...原创 2018-02-28 15:04:28 · 1761 阅读 · 5 评论 -
David Silver强化学习课程笔记(八)(下)
第八课(下):基于Simulation的搜索方法 在《第八课(上):学习与规划的结合》中,我们讲到了Model-Based RL方法,在该方法中,我们首先拟合得到一个模型,然后可以利用各种规划方法进行规划,或者,可以引申出Sample-Based Planning,也即我们并不是去采用贝尔曼方程计算,而是用模型进行采样,然后利用Model-Free方法进行学习。本文中要讲的Simul...原创 2018-03-02 22:59:23 · 1918 阅读 · 0 评论