首先导入两个包:
#coding:utf-8
#0导入模块,生成模拟数据集。
import tensorflow as tf
import numpy as np
BATCH_SIZE = 8
seed = 23455
BATCH_SIZE 表示一次喂给神经网络多少个数据,不要太大,不然计算会很慢(大小也是相对的)。
这里的seed用来产生模拟的数据集随机数,设置了seed以后,我们产生的随机数数据集是固定的一组随机数据了。我们设置seed的意义是为了检验与视频中老师最后输出同样的结果。
#基于seed产生随机数
rng = np.random.RandomState(seed)
#随机数返回32行2列的矩阵 表示32组 体积和重量 作为输入数据集
X = rng.rand(32,2)
#从X这个32行2列的矩阵中取出一行,判断如果和小于1,给Y赋值1,如果和不小于1,给Y赋值0
#作为输入数据集的标签(正确答案)
Y = [[int(x0+x1<1)] for(x0,x1)in X]
print("X:"+ str(X))
print("Y:"+str(Y))
因为我们暂时还没有数据集,我们需要自己生成数据集。这里首先生成一个32行,2列的数据集,2列代表每个数据的两个特征,一共有32个数据。然后Y表示根据这两个特征,如果两个数的和加起来小于1,则标签为1,大于1则标签为0。
#1 定义神经网络的输入参数
x=tf.placeholder(tf.float32,shape=(None,2))
y_=tf.placeholder(tf.float32,shape=(None,1))
w1=tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))
w2=tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))
#定义前向传播过程
a=tf.matmul(x,w1)
y=tf.matmul(a,w2)
这里上一节已经经过了,定义前向传播的过程。
然后定义损失函数和反向传播方法。
#2 定义损失函数及反向传播方法
loss = tf.reduce_mean(tf.square(y-y_))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)
#train_step = tf.train.MomentumOptimizer(0.001,0.9).minimize(loss)
#train_step = tf.train.AdamOptimizer(0.001).minimize(loss)
这里采用的是平方均差作为损失函数,我们的训练目标是把整个网络的计算后的损失函数降到最低。
这里降低损失函数的部分采用梯度下降算法,也可以用其他优化器。
接下来该进行会话计算了:
#用会话计算结果,训练STEPS轮
with tf.Session() as sess:
init_op=tf.global_variables_initializer()
sess.run(init_op)
# 输出目前(未经训练)的参数取值
print("w1:"+ str(sess.run(w1)))
print("w2:"+ str(sess.run(w2)))
print()
我们先把tensorflow里面的随机变量都进行初始化。然后输出原始的网络各层的参数。
之后我们开始循环计算:
#训练模型
STEPS = 3000
for i in range(STEPS):
start = (i*BATCH_SIZE)%32
end = start + BATCH_SIZE
sess.run(train_step,feed_dict={x:X[start:end],y_:Y[start:end]})
if i%500 == 0:
total_loss = sess.run(loss,feed_dict={x:X,y_:Y})
print("After "+str(i)+" training step(s),loss on all data is " + str(total_loss))
这里循环3000次,每500次打印一次当前的损失函数值。
我们通过 i 的变化来控制训练的每个BATCH大小。
为什么这里要用 (i*BATCH_SIZE)%32呢?这是因为通过这样计算以后,end + BATCH_SIZE 不会越界。我们在变化 i 的时候,让我们坐标起始点在 0 到 31-BATCH_SIZE 这个范围里变化。这里的start取值是:0 8 16 24 0 8 16 24 ……
训练好以后打印训练出的网络参数。
这里附上完整的程序:
#coding:utf-8
#0导入模块,生成模拟数据集。
import tensorflow as tf
import numpy as np
BATCH_SIZE = 8
seed = 23455
#基于seed产生随机数
rng = np.random.RandomState(seed)
#随机数返回32行2列的矩阵 表示32组 体积和重量 作为输入数据集
X = rng.rand(32,2)
#从X这个32行2列的矩阵中取出一行,判断如果和小于1,给Y赋值1,如果和不小于1,给Y赋值0
#作为输入数据集的标签(正确答案)
Y = [[int(x0+x1<1)] for(x0,x1)in X]
print("X:"+ str(X))
print("Y:"+str(Y))
#1 定义神经网络的输入参数
x=tf.placeholder(tf.float32,shape=(None,2))
y_=tf.placeholder(tf.float32,shape=(None,1))
w1=tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))
w2=tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))
#定义前向传播过程
a=tf.matmul(x,w1)
y=tf.matmul(a,w2)
#2 定义损失函数及反向传播方法
loss = tf.reduce_mean(tf.square(y-y_))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)
#train_step = tf.train.MomentumOptimizer(0.001,0.9).minimize(loss)
#train_step = tf.train.AdamOptimizer(0.001).minimize(loss)
#用会话计算结果,训练STEPS轮
with tf.Session() as sess:
init_op=tf.global_variables_initializer()
sess.run(init_op)
# 输出目前(未经训练)的参数取值
print("w1:"+ str(sess.run(w1)))
print("w2:"+ str(sess.run(w2)))
print()
#训练模型
STEPS = 3000
for i in range(STEPS):
start = (i*BATCH_SIZE)%32
end = start + BATCH_SIZE
sess.run(train_step,feed_dict={x:X[start:end],y_:Y[start:end]})
if i%500 == 0:
total_loss = sess.run(loss,feed_dict={x:X,y_:Y})
print("After "+str(i)+" training step(s),loss on all data is " + str(total_loss))
print()
print("w1:" + str(sess.run(w1)))
print("w2:" + str(sess.run(w2)))