源码:https://github.com/devsisters/DQN-tensorflow
使用 TensorFlow, 你必须明白 TensorFlow:
- 使用图 (graph) 来表示计算任务.
- 在被称之为
会话 (Session)
的上下文 (context) 中执行图. - 使用 tensor 表示数据.
- 通过
变量 (Variable)
维护状态. - 使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据.
在构建图时是不会发生实际运算的。而在模型构建完毕以后,会进入训练步骤。此时才会有实际的数据输入,梯度计算等操作。那么,如何构建抽象的模型呢?这里就要提到tensorflow中的几个概念:Tensor,Variable,placeholder,而在训练阶段,则需要介绍Session。
agent.py 的init函数:
with tf.variable_scope('step'): self.step_op = tf.Variable(0, trainable=False, name='step') self.step_input = tf.placeholder('int32', None, name='step_input') self.step_assign_op = self.step_op.assign(self.step_input) self.build_dqn()
气死了,好不容易写好的这一段的资料不知怎么提交后被csdn给抹杀了,再也找不到了,很郁闷,就简写了。
with tf.variable_scope Returns a context manager for defining ops(操作) that creates variables (layers). 相当于一个定义全局变量的地方。
tf.Variable 创建变量,使用tensorflow在默认的图中创建节点,这个节点是一个变量。
placeholder 由于input的数据是会变化的,因此用tf.placeholder来存放这块空间
assign 是对变量的赋值操作,只不过这里并没有真正的赋值,只有在执行了run(operation.run or session.run)之后才实现。
初始化到这里 基本结束了,就进入到重点的生成dqn网络的方法了。
initializer = tf.truncated_normal_initializer(0, 0.02)
#生成一个正态分布的初始化器 两个参数的含义
#mean:一个Python标量或标量张量。生成的随机值的平均值。
#stddev:Python标量或标量张量。产生随机值的标准偏差。
activation_fn = tf.nn.relu
# relu是激励函数的一种 ReLU(Rectified Linear unit)激活函数最近变成了神经网络中隐藏层的默认激活函数。
这个简单的函数包含了返回max(0,x),所以对于负值,它会返回0,其它返回x。
# training network with tf.variable_scope('prediction'): if self.cnn_format == 'NHWC': self.s_t = tf.placeholder('float32', [None, self.screen_width, self.screen_height, self.history_length], name='s_t') else: self.s_t = tf.placeholder('float32', [None, self.history_length, self.screen_width, self.screen_height], name='s_t')
终于开始训练了,这块的全局变量名字叫“预测”
cnn_format = 'NHWC' 是配置好的,指定了卷积神经网络的一种输入输出格式。跟‘NHWC’只是在输入参数的顺序上有所不同(从下面的判断中也可以看出来。基本上就是把需要运算的一些大小参数输入进去。)
找资料时发现一个不错的博文,http://www.cnblogs.com/hellocwh/p/5564568.html 介绍了tensorflow实现卷积神经网络算法以及一些原理。
未完待续