Tensorflow 实现多层感知机

最新推荐文章于 2021-02-04 06:28:18 发布

河南骏

最新推荐文章于 2021-02-04 06:28:18 发布

阅读量419

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/eason_oracle/article/details/77526049

版权

深度学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

在普通神经网络的基础上，加入隐藏层，减轻过拟合的Dropout，自适应学习速率的Adagrad，以及可以解决梯度你三的激活函数Relu.

首先是载入Tensorflow并加载MNIST数据集，创建一个Tensorflow默认的InteractiveSession,这样后面执行各项操作就无需指定Session。

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
mnist=input_data.read_data_sets('/tmp/data',one_hot=True)
sess=tf.InteractiveSession()

接下来给隐藏层的参数设置Variable并进行初始化。这里in_units是输入节点数，hl_units是隐藏层的输出节点数设为300(200~1000结果区别不大)。w1,b1是隐藏层的权重和偏置。我们将偏置全部赋值为0，并将权重初始化为截断的正太分布，器标准差为0.1，这一步可以通过tf.truncated_normal方便实现。因为模型使用的激活函数为ReLu,所以需要使用正太分布给参数加一点噪声，来打破完全堆成并且避免0梯度。最后的输出层的softmax,z直接权重W2，偏置b2全部初始化为0即可。

in_units=784
hl_units=300
w1=tf.Variable(tf.truncated_normal([in_units,hl_units],stddev=0.1))
b1=tf.Variable(tf.zeros([hl_units]))
w2=tf.Variable(tf.zeros([hl_units,10]))
b2=tf.Variable(tf.zeros([10]))

接下来定义输入x的placeholder,另外因为在训练和预测时，Dropout的比率keep_prob（即保留节点的概率）是不一样的，通常训练是小于1，而预测时是等于1，所以也把Dropout的比率作为计算图的输入，并定义一个placeholder。

x=tf.placeholder(tf.float32,[None,in_units])
keep_prob=tf.placeholder(tf.float32)

下面定义模型结构，首先需要一个隐藏层，命名为hiddenl，通过tf.nn.relu(tf.matmul(x,w1)+b1)实现一个激活函数为ReLu的隐藏层。这个隐藏层的计算公式为y=relu(wx+b).接下来，调用tf.nn.dropout实现dropout的功能，即将一部分节点置为0，这里的keep_prob是保留数据而不置为0的比例，在训练时应该是小于1的，泳衣制造随机性，防止过拟合；在预测时。等于1，即全部特征来预测样本的类别。最后是输出层。

hiddenl=tf.nn.relu(tf.matmul(x,w1)+b1)
hiddenl_drop=tf.nn.dropout(hiddenl,keep_prob)
y=tf.nn.softmax(tf.matmul(hiddenl_drop,w2)+b2)

接下来是定义损失函数和选择优化器来优化LOSS，这里的损失函数使用交叉信息熵。优化器选择自适应的优化器Adagrad，并把学习率设为0.3，这里我们直接使用tf.train.AdagradOptimizer就可以了，类似的还有Adadelta以及Adam等优化器，读者可以自行尝试，不过学习率可能需要调整。

y_=tf.placeholder(tf.float32,[None,10])
cross_entropy=tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y),reduction_indices=[1]))
train_step=tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)

下面是训练步骤。加入keep_prob作为计算图的输入，并且在训练时设为0.75,即保留75%的节点，其余25%置为0.一般来说，对于越复杂越大规模的神经网络，dropout的效果越显著。另外，因为加入隐藏层，我们需要更多的训练迭代来优化模型参数已达到一个比较好的效果。所以一共采用了3000个batch，每个batch包含100个样本，一共30W，相当于是对全数据及进行了5轮（epoch）迭代。

tf.global_variables_initializer().run()
for i in range(3000):
     batch_xs,batch_ys=mnist.train.next_batch(100)
     train_step.run({x:batch_xs,y_:batch_ys,keep_prob:0.75})

最后一步对模型进行准确率的评测。

correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
print accuracy.eval({x:mnist.test.images,y_:mnist.test.labels,keep_prob:1.0})

最终我们再测试集上得到的98%的准确率，隐藏层起了很大的作用，他能对特征进行抽象和转化。