强化学习
文章平均质量分 84
无所知
Old student
展开
-
强化学习(RLAI)读书笔记第四章动态规划
第四章:动态规划动态规划是指一类在MDP下对环境有完全建模的计算最优策略的算法。经典的DP算法在强化学习中应用有限,不仅是因为需要对环境进行完全建模,而且还需要很多的计算资源。但是这个算法在理论上依然很重要。实际上,书中后面章节的所有算法都可以看成想要使用更少的计算资源而且不需要对环境完全建模的尽可能达到DP的效果的尝试。一般我们假设环境是有限状态MDP。尽管动态规划也可以应用到连续状态和...原创 2018-08-30 17:29:03 · 1983 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第十六章Applications and Case Studies(alphago)
强化学习(RLAI)读书笔记第十六章Applications and Case Studies(alphago)16.6 Mastering the Game of Go16.6.1 AlphaGo16.6 Mastering the Game of Go古老的中国游戏围棋已经困扰着人工智能研究者们几十年了。在其他游戏里能够取得人类级别甚至超越人类级别游戏水平的算法在围棋里应用的并不是很好。...原创 2018-10-25 17:17:13 · 380 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第十六章Applications and Case Studies(不含alphago)
强化学习(RLAI)读书笔记第十六章Applications and Case Studies(不含alphago)16.1 TD-Gammon16.2 Samuel's Checkers Player16.3 Watson‘s Daily-Double Wagering16.4 Optimizing Memory Control16.5 Human-level Video Game Play16...原创 2018-10-24 20:44:13 · 1341 阅读 · 0 评论 -
深度强化学习cs294 Lecture1: Introduction and Course Overview
cs294 Lecture1: Introduction and Course Overview强化学习介绍为什么现在学习深度强化学习序列决策需要解决的其他问题reward从哪里来其他类型的监督学习我们如何建立智能系统第一次看到了该做hw1,然后被吓退。而今卷土重来,一定好好上完23333强化学习介绍当我们要建立一个智能系统的时候需要考虑什么?比如在一艘远洋巨轮上,我们有很好的航行系统和算法...原创 2018-11-21 23:24:23 · 311 阅读 · 0 评论 -
深度强化学习cs294 Lecture2: Supervised Learning of behaviors
cs294 Lecture2: Supervised Learning of behaviorsDefinition of sequential decision problemsTerminology & notationImitation learning: supervised learning for decision makingCase studies of recent wo...原创 2018-11-22 21:31:27 · 305 阅读 · 0 评论 -
深度强化学习cs294 HW1: Imitation Learning
终于把第一次作业完成了,不过实现效果貌似很差,调不好了就这样吧。Section 1第一部分先装环境。没啥好说的。我用的anaconda直接pip install 对应的作业1文件夹里的requirement.txt。其中MuJoCo需要激活个key,可以去官网使用学生邮箱申请一个免费的,时间为一年。这次要用的6个环境如下,盗图一张:Section2进入正题。这次的作业是完成模仿学习。在...原创 2018-11-25 19:54:43 · 2156 阅读 · 0 评论 -
深度强化学习cs294 Lecture3&Lecture4: Introduction to Reinforcement Learning
深度强化学习cs294 Lecture3&Lecture4: Introduction toReinforcement Learning1. Definition of a Markov decision process2. Definition of reinforcement learning problem3. Anatomy of a RL algorithm4. Brief ov...原创 2018-11-23 15:58:28 · 304 阅读 · 0 评论 -
深度强化学习cs294 Lecture5: Policy Gradients Introduction
深度强化学习cs294 Lecture5: Policy Gradients Introduction1. The policy gradient algorithm2. What does the policy gradient do?3. Basic variance reduction: causality4. Basic variance reduction: baseline5. Off...原创 2018-11-27 20:36:38 · 667 阅读 · 0 评论 -
深度强化学习cs294 Lecture6: Actor-Critic Algorithms
深度强化学习cs294 Lecture6: Actor-Critic Algorithms1. Improving the policy gradient with a critic2. The policy evaluation problem3. Discount factors4. The actor-critic algorithmState-dependent baselines复习一...原创 2018-11-28 16:11:24 · 1217 阅读 · 0 评论 -
深度强化学习cs294 Lecture7: Value Function Methods
深度强化学习cs294 Lecture7: Value Function MethodsValue-based MethodsQ-LearningValue Function Learning Theory回忆上节课所讲的内容,关于actor-critic算法的讲解。将policy gradient方法中目标函数梯度的计算进行一些替换,加入了bootstrapping减小方差,定义了无限步长形势...原创 2018-12-05 20:08:24 · 512 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第十三章策略梯度方法(Policy Gradient Methods)
强化学习(RLAI)读书笔记第十三章策略梯度方法(Policy Gradient Methods)13.1 Policy Approximation and its Advantages13.2 The Policy Gradient Theorem13.3 REINFORCE: Monte Carlo Policy Gradient13.4 REINFORCE with Baseline13.5...原创 2018-09-19 23:12:25 · 2498 阅读 · 2 评论 -
强化学习(RLAI)读书笔记第十二章资格迹(Eligibility Traces)
资格迹是强化学习算法中的一个基本机制。比如很流行的其中的指的就是资格迹的使用。基本上所有的TD算法都能够和资格迹进行组合从而得到一个更通用的算法。资格迹把TD和MC方法统一了起来。当TD算法和资格迹进行组合使用时,得到了一组从一步TD延伸到MC算法的算法家族。一般中间部分的算法效果比两端的好。资格迹同样提供了一种在线continuing形式的问题上使用MC算法的实现方式。之前第七章使用n步TD...原创 2018-09-18 20:42:03 · 7057 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第十章On-Policy Control with Approximation
目前继续考虑on-policy的带逼近的control算法。这章主要介绍半梯度Sarsa算法,也就是半梯度TD(0)算法对于动作值估计以及on-policy control算法的自然延伸。虽然这个延伸对于episodic的情况是很自然的,但是对于continuing的情况,我们需要再次考虑对于discounting方法来定义一个最优策略的方式。而当我们使用函数逼近的时候需要放弃discountin...原创 2018-09-13 16:32:58 · 1138 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第二章多臂老虎机
第二章:多臂老虎机把强化学习和其它类型的机器学习区分出来的一大特征就是,强化学习利用的是评估动作的训练数据而非指导哪个动作是正确的数据。纯评估反馈是指只评价动作的好坏程度而不是评价动作是不是最好的。纯指导反馈是直接给出哪个动作是最优的。指导反馈是监督学习的基础。这一章学习评估反馈的简单形式,一个无关联设定的问题。学习这个例子可以清楚看到评估反馈和指导反馈的区别,并且怎么组合起来他们。这个例...原创 2018-08-27 22:06:00 · 2807 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第三章有限马尔科夫决策过程(finite MDP)
第三章 有限马尔科夫决策过程有限马尔科夫决策过程(MDP)是关于评估型反馈的,就像多臂老虎机问题里一样,但是有是关联型的问题。MDP是一个经典的关于连续序列决策的模型,其中动作不仅影响当前的反馈,也会影响接下来的状态以及以后的反馈。因此MDP需要考虑延迟反馈和当前反馈与延迟反馈之间的交换。MDP是强化学习问题的一个数学理想化模型,以此来精确地从理论上描述。这章将会介绍强化学习里的一些关键问...原创 2018-08-29 15:52:02 · 3045 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第五章蒙特卡洛方法
第五章:蒙特卡洛方法和前几章讲的不一样,蒙特卡洛方法不需要对环境进行完全的建模,而只需要经验,也就是实际或者仿真的与环境进行交互的整个样本序列,包括状态动作和反馈信息。从实际交互中学习并不需要对环境建模,而从仿真交互中学习也只需要能够产生相应的转移样本而不是完整的环境状态转移概率分布。而且很多的例子中产生相应的交互例子很容易,得到概率分布却很难。蒙特卡洛方法采用平均样本反馈的方法来解决强化...原创 2018-08-31 20:29:09 · 3455 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第一章介绍
前言 :sutton的《reinforcement learning: an introduction》新版已经基本完成,结合他在学校开设的课程609,进行强化学习的系统学习。609的课程资料等等在这里。博客主要包括书籍的读书笔记,可能会包括609的作业。 第一章: Introduction1.1 reinforcement learning强化学习是学习怎么做,怎么从状态映射到动...原创 2018-08-25 15:30:51 · 1811 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第六章差分学习(TD-learning)
第六章:Temporal-Difference LearningTD-learning算法是强化学习中一个独具特色而又核心的想法,结合了蒙特卡洛算法和动态规划的想法。和MC一样不需要环境模型直接从sample里学习,也像DP一样使用bootstrap通过别的状态值的估计更新当前状态值。首先也关注的是给定策略进行prediction或者叫policy evaluation。对于control(找...原创 2018-09-04 20:36:41 · 5353 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第八章表格方法的规划与学习
第八章:Planning and Learning with Tabular Methods本章为需要环境的model-based强化学习方法(如DP和启发式搜索)和不需要环境的model-free方法(比如MC和TD)提供一个统一的论述框架。基于模型的方法依赖规划(planning)而无模型的强化学习方法依赖学习(learning)。这两种方式有很多不同也有很多相似点。特别的是这两种方法都是...原创 2018-09-07 22:09:08 · 2106 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第七章n步自举(n-step Bootstrapping)
第七章:n-step Bootstrapping这一章中我们把蒙特卡洛算法(MC)和一步差分算法(one-step TD)统一起来。MC算法和一步TD算法都不可能永远是最好的。这两个方法都是比较极端的形式,可能使用它们中间形式会更好一些。另一个看待n步TD算法的优势的角度是它解决了固定时间步骤的缺点。比如一步TD算法固定了每次选择动作和更新值的时间间隔。很多应用中想要把发生的改变快速更新到值函...原创 2018-09-05 19:51:53 · 3103 阅读 · 1 评论 -
强化学习(RLAI)读书笔记第十一章 Off-policy Methods with Approximation
本书第五章就已经讲解过分别使用on-policy和off-policy方法来解决GPI框架里固有的explore和exploit的矛盾。前两章已经讲了on-policy情形下对于函数近似的拓展,本章继续讲解off-policy下对函数近似的拓展,但是这个拓展比on-policy时更难更不同。在第六第七章中讲到的off-policy方法可以拓展到函数近似的情况下,但是这些方法在半梯度法下不能像在on...原创 2018-09-15 21:49:59 · 2489 阅读 · 0 评论 -
强化学习(RLAI)读书笔记第九章On-policy Prediction with Approximation
这一章学习使用on-policy的数据对状态值函数进行逼近,也就是在策略下估计值函数。这一章的重点在于估计的值函数不是使用表格来表示而是使用参数w的函数形式。一般来说权重参数的数量是远远比状态的数量要小的,而且改变一个权重的大小会影响到很多个状态值的估计。于是一个值函数的更新会带来很多其它值函数的改变。这种泛化能力非常有用但更难操作和理解。而且把强化学习延伸到函数逼近的形式也使得它能够应用于部...原创 2018-09-12 16:44:33 · 5670 阅读 · 5 评论 -
深度强化学习cs294 Lecture8: Deep RL with Q-Function
深度强化学习cs294 Lecture8: Deep RL with Q-Function1. How we can make Q-learning work with deep networks2. A generalized view of Q-learning algorithms3. Tricks for improving Q-learning in practice4. Continu...原创 2018-12-06 14:50:42 · 436 阅读 · 0 评论