import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
#输入层节点与输出层节点
input_node=784
output_node=10
#配置神经网络参数
#隐藏层
layer1_node=500
#每次训练的batch数量
batch_size=100
#基础学习率
learning_rate_base=0.8
#学习率的衰减率
learning_rate_decay=0.99
#描述模型复杂度的正则化在损失函数中的系数
reguilarization_rate=0.0001
#训练轮数
training_step=30000
#滑动平均衰减率
moving_average_decay=0.99
#给定神经网络的输入和所有参数,计算神经网络的前向传播结果
def inference(input_tensor,avg_class,weights1,biases1,weights2,biases2):
#当没有提供滑动平均类时,直接使用参数当前值
if avg_class==None:
layer1=tf.nn.relu(tf.matmul(input_tensor,weights1)+biases1)
return tf.matmul(layer1,weights2)+biases2
else:
layer1=tf.nn.relu(tf.matmul(input_tensor,avg_class.average(weights1))+
avg_class.average(biases1))
return tf.matmul(layer1,avg_class.average(weights2))+avg_class.average(biases2)
#训练模型的过程
def train(mnist):
x=tf.placeholder(tf.float32,[None,input_node],name='x-input')
y_=tf.placeholder(tf.float32,[None,output_node],name='y-input')
#生成隐藏层的参数
weights1=tf.Variable(
tf.truncated_normal([input_node,layer1_node],stddev=0.1))
biases1=tf.Variable(tf.constant(0.1,shape=[layer1_node]))
#生成输出函数的参数
weights2=tf.Variable(
tf.truncated_normal([layer1_node,output_node],stddev=0.1))
biases2=tf.Variable(tf.constant(0.1,shape=[output_node]))
#计算在当前神经网络前向传播的结果
y=inference(x,None,weights1,biases1,weights2,biases2)
#定义存储训练轮数的变量
global_step=tf.Variable(0,trainable=False)
#给定滑动平均衰减率和训练轮数的变量
variable_averages=tf.train.ExponentialMovingAverage(
moving_average_decay,global_step)
#在所有代表神经网络参数的变量上使用滑动平均
variables_averages_op=variable_averages.apply(
tf.trainable_variables())
#计算使用了滑动平均之后的前向传播结果
average_y=inference(x,variable_averages,weights1,biases1,weights2,biases2)
#损失函数
cross_entropy=tf.nn.sparse_softmax_cross_entropy_with_logits(
logits=y,labels=tf.argmax(y_,1))
#计算在当前batch中所有样例的交叉熵平均值
cross_entropy_mean=tf.reduce_mean(cross_entropy)
#计算l2正则化损失函数
reguilarizer=tf.contrib.layers.l2_regularizer(reguilarization_rate)
reguilarization=reguilarizer(weights1)+reguilarizer(weights2)
#总损失等于交叉熵损失和正则化损失的和
loss=cross_entropy_mean+reguilarization
#设置指数衰减的学习率
learning_rate=tf.train.exponential_decay(
learning_rate_base,global_step,
mnist.train.num_examples/batch_size,
learning_rate_decay)
#优化损失函数
train_step=tf.train.GradientDescentOptimizer(
learning_rate).minimize(loss,global_step=global_step)
#一次完成多个操作,这里完成反响传播更新神经网络的参数与更新每个参数的滑动平均值
with tf.control_dependencies([train_step,variables_averages_op]):
train_op=tf.no_op(name='train')
#计算每个样例的预测值
correct_prediction=tf.equal(tf.argmax(average_y,1),tf.argmax(y_,1))
#将一个布尔型的数值转换为实数型,然后计算平均值
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
#训练
with tf.Session() as sess:
tf.global_variables_initializer().run()
validation_feed={x:mnist.validation.images,
y_:mnist.validation.labels}
#准备测试数据
test_feed={x:mnist.test.images,
y_:mnist.test.labels}
#迭代的训练神经网络
for i in range(training_step):
#每1000轮输出一次验证数据集上的测试
if i%1000==0:
validate_acc=sess.run(accuracy,feed_dict=validation_feed)
print("After %d training step(s),validation accuracy "
"using average model is %g "%(i,validate_acc))
#产生这一轮使用的一个batch的训练数据,并运行训练过程
xs,ys=mnist.train.next_batch(batch_size)
sess.run(train_op,feed_dict={x:xs,y_:ys})
#训练结束之后,在测试数据集上检验模型最终的正确率
test_acc=sess.run(accuracy,feed_dict=test_feed)
print("After %d training step(s),test accuracy using average model is %g "%(training_step,test_acc))
def main(argv=None):
mnist=input_data.read_data_sets("/tmp/data",one_hot=True)
train(mnist)
if __name__=='__main__':
tf.app.run()