排序:
默认
按更新时间
按访问量
RSS订阅

Deep Q-Network 学习笔记(二)

一、思路 Q-Learning与神经网络结合使用就是 Deep Q-Network,简称 DQN。在现实中,状态的数量极多,并且需要人工去设计特征,而且一旦特征设计不好,则得不到想要的结果。 神经网络正是能处理解决这个问题,取代原来 Q 表的功能。 当神经网络与Q-Learnin...

2018-01-17 09:20:36

阅读数 471

评论数 0

Deep Q-Network 学习笔记(一)

一、思路                                        图 1.1   这里,先自己对那个例子的理解总结一下。 要解决的问题是:如上图 1.1 中有 5 个房间,分别被标记成 0-4,房间外可以看成是一个大的房间,被标记成 5,现在智能...

2018-01-17 08:59:20

阅读数 2646

评论数 0

强化学习系列之九:Deep Q Network (DQN)

文章目录 [隐藏] 1. 强化学习和深度学习结合 2. Deep Q Network (DQN) 算法 3. 后续发展 3.1 Double DQN 3.2 Prioritized Replay 3.3 Dueling Network 4. 总结 强化学习系列系...

2018-01-16 10:45:34

阅读数 2204

评论数 0

强化学习系列之六:策略梯度

文章目录 [隐藏] 1. 策略参数化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 为什么要有策略梯度 4. 总结 强化学习系列系列文章       上一篇文章介绍价值函数近似,用模型拟合价值函...

2018-01-16 10:35:16

阅读数 1089

评论数 0

强化学习系列之五:价值函数近似

目前,我们已经介绍了一些强化学习的算法,但是我们无法在实际问题中运用这些算法。       为什么呢?因为算法估算价值函数 (v(s)) 或者 (q(s,a)),保存这些价值函数意味着保存所有状态。而实际问题中,状态的数目非常巨大,遍历一遍的事情就别想了。比如,围棋的状态总数是(3^{19}...

2018-01-16 10:31:37

阅读数 1255

评论数 0

强化学习系列之四:模型无关的策略学习

文章目录 [隐藏] 1. 一些前置话题 2. MC Control 3. SARSA 4. Q Learning 5. 做点实验 5.1. 算法稳定性 5.2. 贪婪策略的影响 5.3. 不同算法的效果对比 6. 总结 强化学习系列系列文章    ...

2018-01-16 10:27:54

阅读数 307

评论数 0

强化学习系列之三:模型无关的策略评价

文章目录 [隐藏] 1. 蒙特卡罗算法 2. 时差学习算法 3. 一个例子 4. 总结 强化学习系列系列文章       上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。    ...

2018-01-16 10:17:01

阅读数 573

评论数 0

强化学习系列之二:模型相关的强化学习

文章目录 [隐藏] 1. 策略迭代 1.1 策略评估 1.2 策略改进 2. 价值迭代 3. 总结性结尾(好魔性的标题) 强化学习系列系列文章       上一章我们介绍了强化学习的基本假设——马尔科夫决策过程 (Markov Deci...

2018-01-16 09:51:17

阅读数 792

评论数 0

强化学习系列之一:马尔科夫决策过程

文章目录 [隐藏] 1. 马尔科夫决策过程 2. 策略和价值 3. 最优策略存在性和贝尔曼等式 强化学习系列系列文章       机器学习一共有三个分支,有监督学习、无监督学习和强化学习。强化学习是系统从环境学习以使得奖励最大的机器学习。强化学习和有监督学习的...

2018-01-15 17:19:37

阅读数 953

评论数 0

增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)

增强学习(五)----- 时间差分学习(Q learning, Sarsa learning) 接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率PsaPsa状态值函数的估计是自举的(bootstrappi...

2018-01-15 10:33:23

阅读数 630

评论数 0

增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)

增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods) 1. 蒙特卡罗方法的基本思想 蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础...

2018-01-15 10:32:34

阅读数 128

评论数 0

增强学习(三)----- MDP的动态规划解法

增强学习(三)----- MDP的动态规划解法 上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。 那么如何求解最优策略呢?...

2018-01-15 10:32:02

阅读数 118

评论数 0

增强学习(二)----- 马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早...

2018-01-15 10:31:10

阅读数 158

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭