google DQN tensorFlow框架实现 源码解读《一》tensorFlow基础学习

源码:https://github.com/devsisters/DQN-tensorflow

使用 TensorFlow, 你必须明白 TensorFlow:

  • 使用图 (graph) 来表示计算任务.
  • 在被称之为 会话 (Session) 的上下文 (context) 中执行图.
  • 使用 tensor 表示数据.
  • 通过 变量 (Variable) 维护状态.
  • 使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据.

在构建图时是不会发生实际运算的。而在模型构建完毕以后,会进入训练步骤。此时才会有实际的数据输入,梯度计算等操作。那么,如何构建抽象的模型呢?这里就要提到tensorflow中的几个概念:Tensor,Variable,placeholder,而在训练阶段,则需要介绍Session


agent.py 的init函数:

with tf.variable_scope('step'):
  self.step_op = tf.Variable(0, trainable=False, name='step')
  self.step_input = tf.placeholder('int32', None, name='step_input')
  self.step_assign_op = self.step_op.assign(self.step_input)

self.build_dqn()

气死了,好不容易写好的这一段的资料不知怎么提交后被csdn给抹杀了,再也找不到了,很郁闷,就简写了。

with tf.variable_scope Returns a context manager for defining ops(操作) that creates variables (layers). 相当于一个定义全局变量的地方。
tf.Variable 创建变量,使用tensorflow在默认的图中创建节点,这个节点是一个变量。

placeholder 由于input的数据是会变化的,因此用tf.placeholder来存放这块空间
assign 是对变量的赋值操作,只不过这里并没有真正的赋值,只有在执行了run(operation.run or session.run)之后才实现。


初始化到这里 基本结束了,就进入到重点的生成dqn网络的方法了。


initializer = tf.truncated_normal_initializer(0, 0.02)
#生成一个正态分布的初始化器 两个参数的含义
#mean:一个Python标量或标量张量。生成的随机值的平均值。
#stddev:Python标量或标量张量。产生随机值的标准偏差。
activation_fn = tf.nn.relu
# relu是激励函数的一种  ReLU(Rectified Linear unit)激活函数最近变成了神经网络中隐藏层的默认激活函数。
这个简单的函数包含了返回max(0,x),所以对于负值,它会返回0,其它返回x。


# training network
with tf.variable_scope('prediction'):
  if self.cnn_format == 'NHWC':
    self.s_t = tf.placeholder('float32',
        [None, self.screen_width, self.screen_height, self.history_length], name='s_t')
  else:
    self.s_t = tf.placeholder('float32',
        [None, self.history_length, self.screen_width, self.screen_height], name='s_t')

终于开始训练了,这块的全局变量名字叫“预测”

cnn_format = 'NHWC' 是配置好的,指定了卷积神经网络的一种输入输出格式。跟‘NHWC’只是在输入参数的顺序上有所不同(从下面的判断中也可以看出来。基本上就是把需要运算的一些大小参数输入进去。)

找资料时发现一个不错的博文,http://www.cnblogs.com/hellocwh/p/5564568.html 介绍了tensorflow实现卷积神经网络算法以及一些原理。


未完待续


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值