- 博客(5)
- 收藏
- 关注
转载 莫烦python强化学习系列-DQN学习(代码)
import numpy as np import pandas as pd import tensorflow as tf np.random.seed(1) tf.set_random_seed(1) # Deep Q Network off-policy class DeepQNetwork: def __init__( self, ...
2018-12-29 11:35:56 7251 1
原创 莫烦python强化学习系列-DQN学习
传统的Q-learning,我们使用表格来存储每一个状态 state, 和在这个 state 下,每个行为 action 所拥有的 Q 值。传统的Q-learning不适用状态多的情况。 a1 a2 s1 Q(s1,a1) Q(s1,a2) s2 Q(s2,a1) Q(s2,a2) ...... ...... .......
2018-12-13 22:34:21 3663
原创 莫烦python强化学习系列--Sarsa-lambda学习
Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa(0), 因为他等走完这一步以后直接更新行为准则. 如果延续这种想法, 走完这步, 再走一步, 然后再更新, 我们可以叫他 Sarsa(1). 同理, 如果等待回合完毕我们一次性再更新呢, 比如这回合我们走了 n 步, 那我们就叫 Sars...
2018-12-05 16:28:44 693
原创 莫烦强化学习:Sarsa代码学习
Q_Learning和Sarsa的算法如图所示: 对比算法可知,Q_Learning在到达状态s`后, 首先查询Q表,得到使该状态s`条件下Q值最大的动作a`,根据Q(s`, a`)计算Q现实, 随后,通过Q现实和Q估计更新Q表 在下一步执行过程中,该动作a`未必被选择 Sarsa在到达状态s`后,根据贪心策略,选择动作a`,根据Q(s`, a`)计算Q现实, 随后,通过Q现实和Q估计更...
2018-12-05 08:58:20 847
原创 在PTB数据上使用TensorFlow建立语言模型3
词汇表中所有单词的向量维度:[VOCAB,EMB_SIZE] 每个batch中的输入维度input_data:[batch_size,num_steps] 经tf.nn.embedding_lookup提取词向量后,输入维度input_embedding:[batch_size,num_steps,EMB_SIZE] 在训练的每一个时刻,输入的维度[batch_size,EMB_SIZE],...
2018-12-03 21:35:11 207
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人