![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
cy冲鸭
这个作者很懒,什么都没留下…
展开
-
莫烦Q_Learning代码学习
在本节代码中,莫烦大神用Q_Learning算法实现一个探索者走迷宫的游戏,核心代码包括run_this.py和RL_brain.py.其中,run_this.py对应迭代更新部分。from maze_env import Mazefrom RL_brain import QLearningTabledef update(): for episode in range(100)...原创 2018-11-22 22:23:57 · 1472 阅读 · 0 评论 -
莫烦python强化学习系列-Double DQN学习
DQN 的神经网络部分可以看成一个 最新的神经网络 + 老神经网络, 他们有相同的结构, 但内部的参数更新却有时差. 而它的 Q现实部分是这样的:因为我们的神经网络预测 Qmax 本来就有误差, 每次也向着最大误差的 Q现实 改进神经网络, 就是因为这个 Qmax 导致了 overestimate. 所以 Double DQN 的想法就是引入另一个神经网络来打消一些最大误差的影响. 而 ...原创 2019-01-08 10:23:48 · 1605 阅读 · 0 评论 -
莫烦python强化学习系列-DQN学习(代码)
import numpy as npimport pandas as pdimport tensorflow as tfnp.random.seed(1)tf.set_random_seed(1)# Deep Q Network off-policyclass DeepQNetwork: def __init__( self, ...转载 2018-12-29 11:35:56 · 7184 阅读 · 1 评论 -
莫烦python强化学习系列-DQN学习
传统的Q-learning,我们使用表格来存储每一个状态 state, 和在这个 state 下,每个行为 action 所拥有的 Q 值。传统的Q-learning不适用状态多的情况。 a1 a2 s1 Q(s1,a1) Q(s1,a2) s2 Q(s2,a1) Q(s2,a2) ...... ...... .......原创 2018-12-13 22:34:21 · 3656 阅读 · 0 评论 -
莫烦python强化学习系列--Sarsa-lambda学习
Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa(0), 因为他等走完这一步以后直接更新行为准则. 如果延续这种想法, 走完这步, 再走一步, 然后再更新, 我们可以叫他 Sarsa(1). 同理, 如果等待回合完毕我们一次性再更新呢, 比如这回合我们走了 n 步, 那我们就叫 Sars...原创 2018-12-05 16:28:44 · 661 阅读 · 0 评论 -
莫烦强化学习:Sarsa代码学习
Q_Learning和Sarsa的算法如图所示:对比算法可知,Q_Learning在到达状态s`后,首先查询Q表,得到使该状态s`条件下Q值最大的动作a`,根据Q(s`, a`)计算Q现实,随后,通过Q现实和Q估计更新Q表在下一步执行过程中,该动作a`未必被选择Sarsa在到达状态s`后,根据贪心策略,选择动作a`,根据Q(s`, a`)计算Q现实,随后,通过Q现实和Q估计更...原创 2018-12-05 08:58:20 · 816 阅读 · 0 评论 -
莫烦Q_Learning探路者代码学习
Q-Learning算法:拜读莫烦大神的代码,实现一个简单的小程序,实现一个探索者的游戏-o---T #T是宝藏的位置,o是探索者的位置在一个地点探索者都能作出两个行为left/right,具体代码如下:"""A simple example for Reinforcement Learning using table lookup Q-learning method.A...原创 2018-11-20 12:03:08 · 734 阅读 · 0 评论