自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 莫烦python强化学习系列-DQN学习(代码)

import numpy as np import pandas as pd import tensorflow as tf np.random.seed(1) tf.set_random_seed(1) # Deep Q Network off-policy class DeepQNetwork: def __init__( self, ...

2018-12-29 11:35:56 7251 1

原创 莫烦python强化学习系列-DQN学习

       传统的Q-learning,我们使用表格来存储每一个状态 state, 和在这个 state 下,每个行为 action 所拥有的 Q 值。传统的Q-learning不适用状态多的情况。   a1 a2 s1 Q(s1,a1) Q(s1,a2) s2 Q(s2,a1) Q(s2,a2) ...... ...... .......

2018-12-13 22:34:21 3663

原创 莫烦python强化学习系列--Sarsa-lambda学习

        Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa(0), 因为他等走完这一步以后直接更新行为准则. 如果延续这种想法, 走完这步, 再走一步, 然后再更新, 我们可以叫他 Sarsa(1). 同理, 如果等待回合完毕我们一次性再更新呢, 比如这回合我们走了 n 步, 那我们就叫 Sars...

2018-12-05 16:28:44 693

原创 莫烦强化学习:Sarsa代码学习

Q_Learning和Sarsa的算法如图所示: 对比算法可知,Q_Learning在到达状态s`后, 首先查询Q表,得到使该状态s`条件下Q值最大的动作a`,根据Q(s`, a`)计算Q现实, 随后,通过Q现实和Q估计更新Q表 在下一步执行过程中,该动作a`未必被选择 Sarsa在到达状态s`后,根据贪心策略,选择动作a`,根据Q(s`, a`)计算Q现实, 随后,通过Q现实和Q估计更...

2018-12-05 08:58:20 847

原创 在PTB数据上使用TensorFlow建立语言模型3

词汇表中所有单词的向量维度:[VOCAB,EMB_SIZE] 每个batch中的输入维度input_data:[batch_size,num_steps] 经tf.nn.embedding_lookup提取词向量后,输入维度input_embedding:[batch_size,num_steps,EMB_SIZE] 在训练的每一个时刻,输入的维度[batch_size,EMB_SIZE],...

2018-12-03 21:35:11 207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除