tensorflow初探:mlp识别mnist
最近在看tensorflow学习课,课上介绍了mlp识别mnist,最终准确率为91%,老师留作业要求将结果优化到95%。主要通过以下几个方面的优化实现:
优化
- 增加隐层,加入激活函数
- 参数初始化方式,可以试试不全为0 ,发现全0全1比正态分布精度高 ,第一层w用0,其他参数用正态分布精度更高,这里有个问题,当第一层隐层的w和b都初始化为0的时候,会导致网络没法训练,准确率一直在0.13不变,第一层的w和b一直为0,不更新。
- 从均方误差换成交叉熵损失函数可以增加精度
- 更改batch_size,发现太大反而精度降低,变小反而增高一些,64时表现较好
- 可以修改优化器,不适用梯度下降法,使用adam或者moment(常用的优化器: tf.train.GradientDescentOptimizer、tf.train.MomentumOptimizer、tf.train.AdamOptimizer)
结果
最终,我们加入了一层100个神经元的隐层并使用tanh损失函数,修改batch_size=64,使用了交叉熵损失函数,使得准确率在20轮内提高到97%。
代码实现
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
mnist = mnist.read_data_sets("MNIST",one_hot=True)
#每个批次大小
batch_size = 64
#计算有多少批次
n_batch = mnist.train.num_examples // batch_size
#定义占位符
x = tf.placeholder(tf.float32,[None,784])
y = tf.placeholder(tf.float32,[None,10])
#定义隐层,初始化w,b,使用relu做激活函数
W_L1 = tf.Variable(tf.zeros([784,100]))
b_L1 = tf.Variable(tf.random.normal([100]))
WL1_plus_b = tf.matmul(x,W_L1) + b_L1
L1 = tf.nn.relu(WL1_plus_b)
#prediction = tf.nn.softmax(tf.matmul(x,W)+b)
W_L2 = tf.Variable(tf.random.normal([100,10]))
b_L2 = tf.Variable(tf.random.normal([10]))
WL2_plus_b = tf.matmul(L1,W_L2) + b_L2
prediction = WL2_plus_b
#定义损失函数,用交叉熵
#loss = tf.reduce_mean(tf.square(y-prediction))
loss