2.2 Mnist手写数据集

2.2 Mnist手写数据集

全连接网络:网络层的每一个结点都与上一层的所有结点相连。

在这里插入图片描述

多隐层全连接神经网络:
在这里插入图片描述

代码如下:

1. 导入必要的模块

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import tensorflow as tf
from tensorflow.keras import datasets, Input, Model
from tensorflow.keras.layers import Flatten, Dense, Activation, BatchNormalization
from tensorflow.keras.initializers import TruncatedNormal

2. 载入Mnist数据集

(x_train, y_train), (x_test, y_test) = datasets.mnist.load_data()
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

输出如下:

(60000, 28, 28)
(60000,)
(10000, 28, 28)
(10000,)

维度 ( 60000 , 28 , 28 ) → ( 60000 , 784 ) (60000, 28, 28) \to (60000, 784) (60000,28,28)(60000,784)

x_train = x_train.reshape(-1, 28 * 28)
x_test = x_test.reshape(-1, 28 * 28)

归一化处理:

x_train = x_train / 255
x_test = x_test / 255

3. 模型搭建

用到的api:

全连接层tf.keras.layers.Dense

用到的参数:

  • units:输入整数,全连接层神经元个数。

  • activation:激活函数。

    可选项:

    • ‘sigmoid’:sigmoid激活函数
    • ‘tanh’:tanh激活函数
    • ‘relu’:relu激活函数
    • 'elu’或tf.keras.activations.elu(alpha=1.0):elu激活函数
    • ‘selu’:selu激活函数
    • ‘swish’: swish激活函数(tf2.2版本以上才有)
    • ‘softmax’: softmax函数
  • kernel_initializer:权重初始化,默认是’glorot_uniform’(即Xavier均匀初始化)。

    可选项:

    • 'RandomNormal’或tf.keras.initializers.TruncatedNormal(mean=0.0, stddev=0.05):正态分布采样,均值为0,标准差0.05
    • ‘glorot_normal’:正态分布采样,均值为0,方差为2 / (fan_in + fan_out)
    • ‘glorot_uniform’:均匀分布采样,范围[-limit, limit],limit = sqrt(6 / (fan_in + fan_out))
    • ‘lecun_normal’:正态分布采样,均值为0,方差为1 / fan_in
    • ‘lecun_uniform’:均匀分布采样,范围[-limit, limit],limit = sqrt(3 / fan_in)
    • ‘he_normal’:正态分布采样,均值为0,方差为2 / fan_in
    • ‘he_uniform’:均匀分布采样,范围[-limit, limit],limit = sqrt(6 / fan_in)

    fan_in是输入的神经元个数,fan_out是输出的神经元个数。

  • name:输入字符串,给该层设置一个名称。

输入层tf.keras.Input

用到的参数:

  • shape:输入层的大小。

  • name:输入字符串,给该层设置一个名称。

BN层tf.keras.layers.BatchNormalization

用到的参数:

  • axis:需要做批处理的维度,默认为-1,也就是输入数据的最后一个维度。

  • name:输入字符串,给该层设置一个名称。

模型设置tf.keras.Sequential.compile

用到的参数:

  • loss:损失函数,多分类任务一般使用"sparse_categorical_crossentropy",sparse表示先对标签做one hot编码。

  • optimizer:优化器,这里选用"sgd".

  • metrics:评价指标,这里选用"accuracy".

构建50个隐层的神经网络,每层100个神经元

inputs = Input(shape = 28 * 28, name = 'input')


x = Dense(units = 100, activation = 'tanh', kernel_initializer = TruncatedNormal(mean = 0.0, stddev = 1), name = 'dense_0')(inputs)

for i in range (49):
    x = Dense(units = 100, activation = 'tanh', kernel_initializer = TruncatedNormal(mean = 0.0, stddev = 1), name = 'dense_' + str(i + 1))(x)

outputs = Dense(units = 10, activation = 'softmax', name = 'output')(x)

model = Model(inputs = inputs, outputs = outputs)

model.compile(loss = 'sparse_categorical_crossentropy', optimizer = 'sgd', metrics = ['accuracy'])

查看模型:

model.summary()

在这里插入图片描述

在这里插入图片描述

4. 模型训练

model.fit(x = x_train, y = y_train, batch_size = 128, epochs = 10, validation_split = 0.3, shuffle = True)

在这里插入图片描述

至此,模型的准确率不足 15 % 15\% 15%

画出每一层的直方图:

layer_names = ['input', 'dense_0', 'dense_1', 'dense_1', 'dense_2', 'dense_3', 'dense_4']

fig, ax = plt.subplots(1, len(layer_names), figsize = (10, 5))

for i, name in enumerate(layer_names):
    layer_model = Model(inputs = model.input, outputs = model.get_layer(name).output)
    pred = layer_model.predict(x_train)
    ax[i].hist(pred.reshape(-1),bins = 100)
plt.show()

在这里插入图片描述

特点:训练数据大多分布在1和-1,处于中间不饱和态数据较少。

5. 测试集评估结果

model.evaluate(x_test, y_test)

在这里插入图片描述

可以看到,最终测试集准确率不足 12 % 12\% 12%

6. 使用权重初始化

(1)使用lecun_normal

inputs = Input(shape = 28 * 28, name = 'input')


x = Dense(units = 100, activation = 'tanh', kernel_initializer = 'lecun_normal', name = 'dense_0')(inputs)

for i in range (49):
    x = Dense(units = 100, activation = 'tanh', kernel_initializer = 'lecun_normal', name = 'dense_' + str(i + 1))(x)

outputs = Dense(units = 10, activation = 'softmax', name = 'output')(x)

model = Model(inputs = inputs, outputs = outputs)

model.compile(loss = 'sparse_categorical_crossentropy', optimizer = 'sgd', metrics = ['accuracy'])

训练集:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SLPoqdMe-1607829860380)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\image-20201127085655160.png)]

直方图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ecyemJV7-1607829860381)()]

测试集:

(2)使用he_normal

inputs = Input(shape = 28 * 28, name = 'input')


x = Dense(units = 100, activation = 'relu', kernel_initializer = 'he_normal', name = 'dense_0')(inputs)

for i in range (49):
    x = Dense(units = 100, activation = 'relu', kernel_initializer = 'he_normal', name = 'dense_' + str(i + 1))(x)

outputs = Dense(units = 10, activation = 'softmax', name = 'output')(x)

model = Model(inputs = inputs, outputs = outputs)

model.compile(loss = 'sparse_categorical_crossentropy', optimizer = 'sgd', metrics = ['accuracy'])

训练集:

在这里插入图片描述

直方图:
在这里插入图片描述

测试集:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bvsMaijR-1607829860385)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\image-20201127090844034.png)]

(3)使用Batch Normalization

相似的,我们可以不通过修改kernel_initializer,添加Batch Normalization项对饱和函数区域的修复情况,这里的kernel_initializer改回TruncatedNormal

inputs = Input(shape = 28 * 28, name = 'input')


x = Dense(units = 100, kernel_initializer = TruncatedNormal(mean = 0.0, stddev = 1), name = 'dense_0')(inputs)
x = BatchNormalization(axis = -1)(x)
x = Activation(activation = 'tanh', name = 'activation_0')(x)

for i in range (49):
    x = Dense(units = 100, kernel_initializer = TruncatedNormal(mean = 0.0, stddev = 1), name = 'dense_' + str(i + 1))(x)
    x = BatchNormalization(axis = -1)(x)
    x = Activation(activation = 'tanh', name = 'activation_' + str(i + 1))(x)

outputs = Dense(units = 10, activation = 'softmax', name = 'output')(x)

model = Model(inputs = inputs, outputs = outputs)

model.compile(loss = 'sparse_categorical_crossentropy', optimizer = 'sgd', metrics = ['accuracy'])

在这里插入图片描述

在这里插入图片描述

可以看到,相比于最初的 12 % 12\% 12%Batch Normalization对于饱和函数区域的修复还是很可观的

epochs设定为100,最终将稳定在 89 % 89\% 89%

7. 可视化

(1)查看数据集图片

定义画图函数plot_images

参数介绍:

  • images:包含多张图片数据的序列。

  • labels:包含图片对应标签的序列(序列中的元素需要是0,1,2,…,9这样的正整数)。

def plot_images(images, labels):
    class_names = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
    fig, axes = plt.subplots(3, 10, figsize=(20,8))
    axes = axes.flatten()
    for img, label, ax in zip(images, labels, axes):
        ax.imshow(img)
        ax.set_title(class_names[label])
        ax.axis('off')
    plt.tight_layout()
    plt.show()

随机抽取30张训练集图片进行查看

np.random.seed(99)
index_list = np.random.randint(0,59999,30)

plot_images(x_train[index_list], y_train[index_list])

在这里插入图片描述

随机抽取30张测试集图片进行查看
在这里插入图片描述

(2)画图查看history数据的变化趋势

history = model.fit(x=x_train, y=y_train, batch_size=32,
                     epochs=200, validation_split=0.4,
                     shuffle=True)
pd.DataFrame(history.history).plot(figsize=(8, 5))
plt.grid(True)
plt.xlabel('epoch')
plt.show()

在这里插入图片描述

随着epoch的增加,

  • loss(蓝线)不断下降;

  • val_loss(绿线)先下降后抬升;

  • accuracy(黄线)不断上升;

  • val_accuracy(红线)刚开始上升后趋于平稳;

loss(蓝线)和val_loss(绿线)的变化趋势说明模型过拟合了。

8. 结果过拟合

(1) 增加训练数据量

  1. 采集更多的数据
  2. 数据增广(image augmentation):对已有数据做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。这里不讲数据增广,有兴趣的可以查看tf.keras.preprocessing.image.ImageDataGenerator这个api
np.random.seed(43)
index_list = np.random.randint(0,59999,10000)#将随机抽取1000张改成随机抽取10000张

x_train = x_train[index_list] 
y_train = y_train[index_list]

在这里插入图片描述

val_loss抬升程度明显减小

accuracy: 0.9388

(2) 减小模型复杂度

  1. 减少隐层
  2. 减少神经元个数
model = Sequential()

# 展平层flatten
model.add(Flatten(input_shape=(28, 28), name='flatten'))

model.add(Dense(units=100, activation='tanh',kernel_initializer='lecun_normal'))

# 隐层dense
#for i in range(20):
#    model.add(Dense(units=500, activation='tanh',kernel_initializer='lecun_normal'))

# 加正则的隐层dense
#for i in range(20):
#    model.add(Dense(units=500, activation='tanh', kernel_initializer='lecun_normal',
#                    kernel_regularizer=tf.keras.regularizers.l2(1e-5)))

# dropout层
# model.add(Dropout(rate=0.5))

# 输出层
model.add(Dense(units=10, activation='softmax', name='logit'))

# 设置损失函数loss、优化器optimizer、评价标准metrics
model.compile(loss='sparse_categorical_crossentropy', optimizer=tf.keras.optimizers.SGD(
    learning_rate=0.001), metrics=['accuracy'])

在这里插入图片描述

 accuracy: 0.9053

(3) 加正则项

tf.keras.regularizers.l2

用到的参数:

  • l:惩罚项,默认为0.01。
model = Sequential()

# 展平层flatten
model.add(Flatten(input_shape=(28, 28), name='flatten'))


# 加正则的隐层dense
for i in range(20):
    model.add(Dense(units=500, activation='tanh', kernel_initializer='lecun_normal',
                    kernel_regularizer=tf.keras.regularizers.l2(1e-5)))


# 输出层
model.add(Dense(units=10, activation='softmax', name='logit'))

# 设置损失函数loss、优化器optimizer、评价标准metrics
model.compile(loss='sparse_categorical_crossentropy', optimizer=tf.keras.optimizers.SGD(
    learning_rate=0.001), metrics=['accuracy'])

在这里插入图片描述

(4) 提前停止

tf.keras.callbacks.EarlyStopping

用到的参数:

  • monitor:监控的数据,一般为’val_loss’。

  • min_delta:定义模型改善的最小量,只有大于min_delta才会认为模型有改善,默认为0。

  • patience:有多少个epoch,模型没有改善,训练就会停止,默认为0。

  • restore_best_weights:是否使用监控数据最好的模型参数,如果是False,使用的是训练最后一步的模型参数,默认False。

# 设置EarlyStopping,val_loss经过10个epoch都没有改善就停止训练
earlystop = EarlyStopping(monitor='val_loss', min_delta=1e-4, patience=10, restore_best_weights=True)

最终模型训练到96epoch即终止训练。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nMy23PN9-1607833308906)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\image-20200913135824031.png)]

图像:
在这里插入图片描述

(5)Dropout

tf.keras.layers.Dropout

用到的参数:

  • rate:神经元失效的概率,取值0~1的浮点数。

  • seed:随机种子,取正整数。

  • name:输入字符串,给该层设置一个名称。

model = Sequential()

# 展平层flatten
model.add(Flatten(input_shape=(28, 28), name='flatten'))

#model.add(Dense(units=100, activation='tanh',kernel_initializer='lecun_normal'))

# 隐层dense
#for i in range(20):
#    model.add(Dense(units=500, activation='tanh',kernel_initializer='lecun_normal'))

# 加正则的隐层dense
for i in range(18):
    model.add(Dense(units=500, activation='tanh', kernel_initializer='lecun_normal'))

model.add(Dense(units=500, activation='tanh', kernel_initializer='lecun_normal'))
# dropout层
model.add(Dropout(rate=0.5))
model.add(Dense(units=500, activation='tanh', kernel_initializer='lecun_normal'))
# dropout层
model.add(Dropout(rate=0.5))

# 输出层
model.add(Dense(units=10, activation='softmax', name='logit'))

# 设置损失函数loss、优化器optimizer、评价标准metrics
model.compile(loss='sparse_categorical_crossentropy', optimizer=tf.keras.optimizers.SGD(
    learning_rate=0.001), metrics=['accuracy'])
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值