四、TensorFlow实现自编码器及多层感知机

最新推荐文章于 2022-12-05 19:38:28 发布

HeinSven

最新推荐文章于 2022-12-05 19:38:28 发布

阅读量384

点赞数

AI学习笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

多层感知机（多层神经网络）简介

Softmax Regression线性模型，简单易用，但是拟合能力不强。

隐含层：指除输入、输出层外，中间的那些层。

隐含层越多，越容易拟合复杂函数，且隐含节点数目越少。

深度学习的特点之一：

层数越深，概念越抽象，需要背诵的知识点就越少。

缺点，容易过拟合、参数难以调试、梯度弥散。

过拟合：模型预测准确率在训练集上升高，但在测试集上反而下降了。解决办法，使用Dropout，大致思路是，在训练时，将神经网络某一层的输出节点数据随机丢弃一部分。实质是，创造出了很多新的随机样本，通过增大样本量、减少特征数量来防止过拟合。

参数难以调试：如SGD算法，不稳定，结果可能会在最优解附近波动，需对学习速率、Momentum、Nesterov等参数进行比较复杂的调试。

梯度弥散：在ReLU激活函数出现之前，神经网络训练全部都是用Sigmoid作为激活函数。但层数较多时，Sigmoid函数在反向传播中梯度值会逐渐减小，到最后梯度值就变得非常小了。

ReLU是一个简单的非线性函数y=max(0,x)，类似于人脑的阈值响应机制。优点，可很好地传递梯度，经过多层的反向传播，梯度依旧不会大幅缩小。

ReLU对比Sigmoid的主要变化：单侧抑制，相对宽阔的兴奋边界，稀疏激活性（少量的神经元被激活）。

将隐含层的激活函数从Sigmoid替换为ReLU，可带来训练速度及模型准确率的提升。

神经网络的输出层一般是Sigmoid函数，它最接近概率输出分布。

隐含层可解决XOR问题，隐含层越多，就可以对原有特征进行越抽象的变换，模型的拟合能力就越强。

TensorFlow实现多层感知机

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
sess = tf.InteractiveSession()

in_units = 784  # 输入节点数
h1_units = 300  # 隐含层的输出节点数
# 隐含层的权重和偏置# 权重初始化为截断的正态分布，标准差为0.1
# 使用ReLU，所以需要用正态分布给参数加一点噪声，打破完全对称且避免0梯度
W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))
b1 = tf.Variable(tf.zeros([h1_units]))  # 偏置全部置为0
# 对输出层的Softmax，直接将权重和偏置置为0
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))

# Dropout的比率keep_prob，在训练时小于1，预测时则等于1，因此作为计算图的输入
x = tf.placeholder(tf.float32, [None, in_units])
keep_prob = tf.placeholder(tf.float32)

# 实现一个激活函数为ReLU的隐含层，计算公式y=relu(W1x+b)
hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
# 这里的keep_prob参数即为保留数据而不置为0的比例，随机将一部分节点置为0
# keep_prob在训练时是小于1的，用以制造随机性，防止过拟合；在预测时等于1，使用全部特征来预测样本的类别。
hidden1_drop = tf.nn.dropout(hidden1, keep_prob)
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)

# 损失函数使用交叉信息熵
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# 优化器选择自适应的优化器Adagrad，并把学习速率设为0.3
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)

tf.global_variables_initializer.run()
for i in range(3000):
    # 每个batch包含100条样本
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

HeinSven

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
四、TensorFlow实现自编码器及多层感知机

多层感知机（多层神经网络）简介Softmax Regression线性模型，简单易用，但是拟合能力不强。隐含层：指除输入、输出层外，中间的那些层。隐含层越多，越容易拟合复杂函数，且隐含节点数目越少。深度学习的特点之一：层数越深，概念越抽象，需要背诵的知识点就越少。缺点，容易过拟合、参数难以调试、梯度弥散。过拟合：模型预测准确率在训练集上升高，但在测试集上反而下降了。解决...
复制链接

扫一扫