2018年12月_cy冲鸭

12月 11月 03月

转载莫烦python强化学习系列-DQN学习(代码)

import numpy as np import pandas as pd import tensorflow as tf np.random.seed(1) tf.set_random_seed(1) # Deep Q Network off-policy class DeepQNetwork: def __init__( self, ...

2018-12-29 11:35:56 7251 1

原创莫烦python强化学习系列-DQN学习

传统的Q-learning，我们使用表格来存储每一个状态 state, 和在这个 state 下，每个行为 action 所拥有的 Q 值。传统的Q-learning不适用状态多的情况。 a1 a2 s1 Q(s1,a1) Q(s1,a2) s2 Q(s2,a1) Q(s2,a2) ...... ...... .......

2018-12-13 22:34:21 3663

原创莫烦python强化学习系列－－Sarsa-lambda学习

Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa(0), 因为他等走完这一步以后直接更新行为准则. 如果延续这种想法, 走完这步, 再走一步, 然后再更新, 我们可以叫他 Sarsa(1). 同理, 如果等待回合完毕我们一次性再更新呢, 比如这回合我们走了 n 步, 那我们就叫 Sars...

2018-12-05 16:28:44 693

原创莫烦强化学习：Sarsa代码学习

Q_Learning和Sarsa的算法如图所示：对比算法可知，Q_Learning在到达状态s`后，首先查询Q表，得到使该状态s`条件下Q值最大的动作a`，根据Q(s`, a`)计算Q现实，随后，通过Q现实和Q估计更新Q表在下一步执行过程中，该动作a`未必被选择 Sarsa在到达状态s`后，根据贪心策略，选择动作a`,根据Q(s`, a`)计算Q现实，随后，通过Q现实和Q估计更...

2018-12-05 08:58:20 847

词汇表中所有单词的向量维度：[VOCAB,EMB_SIZE] 每个batch中的输入维度input_data:[batch_size,num_steps] 经tf.nn.embedding_lookup提取词向量后，输入维度input_embedding:[batch_size,num_steps,EMB_SIZE] 在训练的每一个时刻，输入的维度[batch_size,EMB_SIZE],...

2018-12-03 21:35:11 207

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_41841797的博客

转载莫烦python强化学习系列-DQN学习(代码)

原创莫烦python强化学习系列-DQN学习

原创莫烦python强化学习系列－－Sarsa-lambda学习

原创莫烦强化学习：Sarsa代码学习

原创在PTB数据上使用TensorFlow建立语言模型3

空空如也

空空如也

转载 莫烦python强化学习系列-DQN学习(代码)

原创 莫烦python强化学习系列-DQN学习

原创 莫烦python强化学习系列－－Sarsa-lambda学习

原创 莫烦强化学习：Sarsa代码学习

原创 在PTB数据上使用TensorFlow建立语言模型3

空空如也

空空如也

转载莫烦python强化学习系列-DQN学习(代码)

原创莫烦python强化学习系列-DQN学习

原创莫烦python强化学习系列－－Sarsa-lambda学习

原创莫烦强化学习：Sarsa代码学习

原创在PTB数据上使用TensorFlow建立语言模型3