多层感知机
在神经网络上加上隐含层并使用Dropout减轻过拟合,使用Adagrad自适应学习速率,使用ReLU解决梯度消失/弥散问题.
ReLU对比Sigmoid的主要变化点:
- 单侧抑制
- 相对宽阔的兴奋边界
- 稀疏激活性
采用ReLU解决梯度弥散问题参见深度学习--采用ReLU解决消失的梯度问题(vanishing gradient problem)
单侧抑制:
从函数图像上可以看到ReLU把负值都变为0,正值不变,这种操作即是单侧抑制.
稀疏激活性:
sigmodi函数的导数图像:
ReLU函数的导数图像:
可以看到ReLU函数在负半轴导数为0,所以神经元激活值为负数时则梯度就会为0,则该神经元不会被训练即稀疏激活性.
多层感知机tensorflow实现
代码及注释:
# #!/usr/bin/python
# # coding:utf-8
# 多层感知机
from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
# 加载MNIST数据集
mnist = input_data.read_data_sets("Mnist_data", one_hot=True)
sess = tf.InteractiveSession()
# 输入节点数
in_units = 784
# 隐藏层输出节点数
h1_units = 300
# 隐藏层权重及偏执,用正太分布为参数增加一点噪声避免完全对称和0梯度
W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))
b1 = tf.Variable(tf.zeros([h1_units]))
# 输出层的权重及偏执
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))
# 定义输入x的占位符
x = tf.placeholder(tf.float32, [None, in_units])
# 定义Dropout的比率(训练时小于1,预测时等于1)
keep_prob = tf.placeholder(tf.float32)
# 定义一个隐含层,y=relu(Wx+b)
hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
# 实现Dropout
hidden1_drop = tf.nn.dropout(hidden1, keep_prob)
# 输出层输出的实际值
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)
# 目标值
y_ = tf.placeholder(tf.float32, [None, 10])
# 损失函数使用交叉信息熵
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y), reduction_indices=[1]))
# 使用Adagrad优化器,学习率设为0.3,优化损失函数
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)
tf.global_variables_initializer().run()
# 采用4000个batch
for i in range(4000):
# 每个batch中包含100个样本
batch_xs, batch_ys = mnist.train.next_batch(100)
# Dropout的比率设为0.75
train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})
# 对模型进行准确率评测
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 将布尔值投射为tf.float32类型,计算均值
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# Dropout的比率设为1
print accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0})
输出:
0.9811