四、TensorFlow实现自编码器及多层感知机

多层感知机(多层神经网络)简介

Softmax Regression线性模型,简单易用,但是拟合能力不强。

隐含层:指除输入、输出层外,中间的那些层。

隐含层越多,越容易拟合复杂函数,且隐含节点数目越少。

深度学习的特点之一:

层数越深,概念越抽象,需要背诵的知识点就越少。

缺点,容易过拟合、参数难以调试、梯度弥散。

过拟合:模型预测准确率在训练集上升高,但在测试集上反而下降了。解决办法,使用Dropout,大致思路是,在训练时,将神经网络某一层的输出节点数据随机丢弃一部分。实质是,创造出了很多新的随机样本,通过增大样本量、减少特征数量来防止过拟合。

参数难以调试:如SGD算法,不稳定,结果可能会在最优解附近波动,需对学习速率、Momentum、Nesterov等参数进行比较复杂的调试。

梯度弥散:在ReLU激活函数出现之前,神经网络训练全部都是用Sigmoid作为激活函数。但层数较多时,Sigmoid函数在反向传播中梯度值会逐渐减小,到最后梯度值就变得非常小了。

ReLU是一个简单的非线性函数y=max(0,x),类似于人脑的阈值响应机制。优点,可很好地传递梯度,经过多层的反向传播,梯度依旧不会大幅缩小。

ReLU对比Sigmoid的主要变化:单侧抑制,相对宽阔的兴奋边界,稀疏激活性(少量的神经元被激活)。

将隐含层的激活函数从Sigmoid替换为ReLU,可带来训练速度模型准确率的提升。

神经网络的输出层一般是Sigmoid函数,它最接近概率输出分布

隐含层可解决XOR问题,隐含层越多,就可以对原有特征进行越抽象的变换,模型的拟合能力就越强。

 

TensorFlow实现多层感知机

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
sess = tf.InteractiveSession()

in_units = 784  # 输入节点数
h1_units = 300  # 隐含层的输出节点数
# 隐含层的权重和偏置# 权重初始化为截断的正态分布,标准差为0.1
# 使用ReLU,所以需要用正态分布给参数加一点噪声,打破完全对称且避免0梯度
W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))
b1 = tf.Variable(tf.zeros([h1_units]))  # 偏置全部置为0
# 对输出层的Softmax,直接将权重和偏置置为0
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))

# Dropout的比率keep_prob,在训练时小于1,预测时则等于1,因此作为计算图的输入
x = tf.placeholder(tf.float32, [None, in_units])
keep_prob = tf.placeholder(tf.float32)

# 实现一个激活函数为ReLU的隐含层,计算公式y=relu(W1x+b)
hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
# 这里的keep_prob参数即为保留数据而不置为0的比例,随机将一部分节点置为0
# keep_prob在训练时是小于1的,用以制造随机性,防止过拟合;在预测时等于1,使用全部特征来预测样本的类别。
hidden1_drop = tf.nn.dropout(hidden1, keep_prob)
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)

# 损失函数使用交叉信息熵
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# 优化器选择自适应的优化器Adagrad,并把学习速率设为0.3
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)

tf.global_variables_initializer.run()
for i in range(3000):
    # 每个batch包含100条样本
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值