反向传播:训练参数模型,在所有参数上梯度下降,使NN模型在训练数据上的损失函数最小
损失函数loss:预测值(y)与已知答案(y_)的差距
如何得到损失函数loss,我们可以用均方误差MSE去实现,代码如下
loss=tf.reduce_mean(tf.square(y-y_))
对于反向传播的训练方法:我们以减小loss值作为优化目标
#学习率可以为较小的值,学习率决定了参数每次更新的幅度
train_step=tf.train.GradientDescentOptimizer(learn_rate).minimize(loss)
train_step=tf.train.MomentumOptimizer(learn_rate,momentum).minimize(loss)
train_step=tf.train.AdadeltaOptimizer(learn_rate).minimize(loss)
我们通过代码进一步理解反向传播
import tensorflow as tf
import numpy as np
BATCH_SIZE = 8#表示一次喂入神经网络多少组数据(不要过大)
seed =23445
#基于seed产生的随机数
rng=np.random.RandomState(seed)
#随机数返回32行2列的随机数,作为数据集,表示32组体积和重量
X = rng.rand(32,2)
#从X这个32行2列的矩阵中,取出一行,判断如果和小于1给Y赋值1 如果和不小于1 给Y赋值0
#作为输入数据集的标签(正确答案),其实也是数据标记的方法
Y = [[int(x0 +x1 <1)] for (x0,x1) in X]#一个零件合格与否的评判的标准
print("X",X)
print("Y",Y)
#定义神经网络的输入、参数和输出,定义前向传播过程
x = tf.placeholder(tf.float32,shape=(None,2))#特征
y_ = tf.placeholder(tf.float32,shape=(None,1))#标准答案
#参数要匹配输入和输出
w1=tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))
w2=tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))
#用矩阵乘法实现的前向传播
a=tf.matmul(x,w1)
y=tf.matmul(a,w2)
#定义损失函数和反向传播方法
loss=tf.reduce_mean(tf.square(y-y_))
train_step=tf.train.GradientDescentOptimizer(0.001).minimize(loss)#以梯度下降实现训练过程,学习率为0.001
#还有两种实现方法,选择其一即可
#train_step=tf.train.MomentumOptimizer(0.001,0.9).minimize(loss)
#train_step=tf.train.AdadeltaOptimizer(0.001).minimize(loss)
#生成会话,训练STEPS轮
with tf.Session() as sess:
init_op = tf.global_variables_initializer() # 实现对所有参数的初始化
sess.run(init_op)
#输出目前(未经过训练)的参数取值
print(sess.run(w1))
print(sess.run(w2))
#训练模型
STEPS=3000
for i in range(STEPS):
start = (i*BATCH_SIZE)%32
end = start +BATCH_SIZE
sess.run(train_step,feed_dict={x:X[start:end],y_:Y[start:end]})
if i % 500 ==0:
total_loss = sess.run(loss,feed_dict={x:X,y_:Y})
print("经过%d轮的训练,损失的数据%g" %(i,total_loss))
#输出训练后的参数取值
print("\n")
print(sess.run(w1))
print(sess.run(w2))
搭建神经网络的八股:准备、前传、反传、迭代
准备:导入模块、常量定义、生成数据集
前传:定义输入、参数和输出
反传:定义损失函数和反向传播方法
迭代:生成会话,训练STEPS