时序差分学习

第六章 时序差分学习 如果非要说一个强化学习中最核心并且新奇的方法,那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。所以TD方法有两个特点:一是可以直接从经验中学习,不需要环境模型;二是TD方法根据其他的估计来更新估计,也就是自举。时序差分学习,蒙特卡洛方法和动...

2018-08-16 10:21:58

阅读数:53

评论数:0

蒙特卡洛方法

蒙特卡洛方法 在本章中,我们介绍了估计值函数的学习方法,并用此来寻找最优策略。不像前几章有对环境的完全的认识,蒙特卡洛方法只需要经验。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。蒙特卡洛方法能被用于两种方法:一是直接从从实际经验中学习,并不需要模型;二是能从模拟中学习,不需要概率分布。...

2018-08-16 10:21:18

阅读数:288

评论数:0

基于表方法的规划和学习方法读书笔记

基于表方法的规划和学习方法读书笔记 在这一章中我们从一种统一的视角结合了强化学习中有模型的方法和无模型的方法。基于模型的方法的主要部分是规划,无模型的方法主要依赖学习。这两类方法有共同的基础,首先都是依靠值函数的计算,再者这些方法都是基于未来状态然后靠反向传播来更新当前值函数。 8.1 模型和...

2018-08-16 10:11:54

阅读数:29

评论数:0

第七章 n步自举读书笔记

第七章 n步自举 在本章中,我们结合了前两章讲的蒙特卡洛方法和一步时序差分方法,拓展出n步TD方法。N步方法使我们从TD(0)的一步时间限制中跳出,可以根据问题合理的选择n的大小。和往常一样,我们先介绍n步自举的预测问题,然后在考虑它的控制问题。 7.1 n步TD预测 一步TD方法是等一个时...

2018-08-16 10:11:04

阅读数:29

评论数:0

Reinforcement Learning:An Introduction 第三章读书笔记

有限马尔科夫决策过程(Finite Markov Decision Processes)在这一章中我们介绍了贯穿本书的马尔科夫决策过程。这类问题包括评定性的反馈和关联因素(在不同的情况下选择不同的行为)。MDPs是进行序列决策的典型的形式化,在这里行为不仅影响即时的reward还影响接下来的情况。...

2018-04-22 21:20:47

阅读数:28

评论数:0

Reinforcement Learning:An Introduction第二章读书笔记

Part I:Tabular Solution Methods 在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列,表来展示。在这些例子中,都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的,下一部分模糊的解决,但适用范...

2018-04-14 12:10:15

阅读数:154

评论数:0

强化学习:入门 第一章读书笔记

第一章读书笔记 引子:  自从婴儿开始,婴儿就能够从与环境的交互中学习。从与环境的交互中学习是差不多所有学习和智能的最基础的理论。书中我们以人工智能工程师和研究者的身份用计算的方法,研究不同方法的效果。强化学习与其他机器学习相比较而言更注重目标引导。1.1强化学习  强化学习主要是学习如何从既定状...

2018-04-08 21:18:27

阅读数:96

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭