- 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
- 🍖 原作者:K同学啊 | 接辅导、项目定制
一、我的环境:
1.语言环境:Python 3.9
2.编译器:Pycharm
3.深度学习环境:TensorFlow 2.10.0
二、GPU设置:
import tensorflow as tf
gpus = tf.config.list_physical_devices("GPU")
if gpus:
gpu0 = gpus[0] #如果有多个GPU,仅使用第0个GPU
tf.config.experimental.set_memory_growth(gpu0, True) #设置GPU显存用量按需使用
tf.config.set_visible_devices([gpu0],"GPU")
三、导入数据:
import tensorflow as tf
from tensorflow.keras import datasets, layers, models
import matplotlib.pyplot as plt
# 导入mnist数据,依次分别为训练集图片、训练集标签、测试集图片、测试集标签
(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()
四、归一化:
归一化
与标准化
是特征缩放的两种形式,其作用是:
- 使不同量纲的特征处于同一数值量级,减少方差大的特征的影响,使模型更准确。
- 加快学习算法的收敛速度。
# 将像素的值标准化至0到1的区间内。(对于灰度图片来说,每个像素最大值是255,每个像素最小值是0,也就是直接除以255就可以完成归一化。)
train_images, test_images = train_images / 255.0, test_images / 255.0
# 查看数据维数信息
print(train_images.shape,test_images.shape,train_labels.shape,test_labels.shape)
运行结果:
"""
输出:((60000, 28, 28), (10000, 28, 28), (60000,), (10000,))
"""
五、可视化图片
# 将数据集前20个图片数据可视化显示
# 进行图像大小为20宽、10长的绘图(单位为英寸inch)
plt.figure(figsize=(20,10))
# 遍历MNIST数据集下标数值0~49
for i in range(20):
# 将整个figure分成5行10列,绘制第i+1个子图。
plt.subplot(2,10,i+1)
# 设置不显示x轴刻度
plt.xticks([])
# 设置不显示y轴刻度
plt.yticks([])
# 设置不显示子图网格线
plt.grid(False)
# 图像展示,cmap为颜色图谱,"plt.cm.binary"为matplotlib.cm中的色表
plt.imshow(train_images[i], cmap=plt.cm.binary)
# 设置x轴标签显示为图片对应的数字
plt.xlabel(train_labels[i])
# 显示图片
plt.show()
运行结果:
六、调整图片格式
#调整数据到我们需要的格式
train_images = train_images.reshape((60000, 28, 28, 1))
test_images = test_images.reshape((10000, 28, 28, 1))
print(train_images.shape,test_images.shape,train_labels.shape,test_labels.shape)
运行结果:
"""
输出:((60000, 28, 28, 1), (10000, 28, 28, 1), (60000,), (10000,))
"""
七、构建CNN网络模型
# 创建并设置卷积神经网络
# 卷积层:通过卷积操作对输入图像进行降维和特征抽取
# 池化层:是一种非线性形式的下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的鲁棒性。
# 全连接层:在经过几个卷积和池化层之后,神经网络中的高级推理通过全连接层来完成。
model = models.Sequential([
# 设置二维卷积层1,设置32个3*3卷积核,activation参数将激活函数设置为ReLu函数,input_shape参数将图层的输入形状设置为(28, 28, 1)
# ReLu函数作为激活励函数可以增强判定函数和整个神经网络的非线性特性,而本身并不会改变卷积层
# 相比其它函数来说,ReLU函数更受青睐,这是因为它可以将神经网络的训练速度提升数倍,而并不会对模型的泛化准确度造成显著影响。
layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
#池化层1,2*2采样
layers.MaxPooling2D((2, 2)),
# 设置二维卷积层2,设置64个3*3卷积核,activation参数将激活函数设置为ReLu函数
layers.Conv2D(64, (3, 3), activation='relu'),
#池化层2,2*2采样
layers.MaxPooling2D((2, 2)),
layers.Flatten(), #Flatten层,连接卷积层与全连接层
layers.Dense(64, activation='relu'), #全连接层,特征进一步提取,64为输出空间的维数,activation参数将激活函数设置为ReLu函数
layers.Dense(10) #输出层,输出预期结果,10为输出空间的维数
])
# 打印网络结构
model.summary()
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
conv2d (Conv2D) (None, 26, 26, 32) 320
max_pooling2d (MaxPooling2D (None, 13, 13, 32) 0
)
conv2d_1 (Conv2D) (None, 11, 11, 64) 18496
max_pooling2d_1 (MaxPooling (None, 5, 5, 64) 0
2D)
flatten (Flatten) (None, 1600) 0
dense (Dense) (None, 64) 102464
dense_1 (Dense) (None, 10) 650
=================================================================
Total params: 121,930
Trainable params: 121,930
Non-trainable params: 0
_________________________________________________________________
八、编译模型
"""
这里设置优化器、损失函数以及metrics
这三者具体介绍可参考我的博客:
https://blog.csdn.net/qq_38251616/category_10258234.html
"""
# model.compile()方法用于在配置训练方法时,告知训练时用的优化器、损失函数和准确率评测标准
model.compile(
# 设置优化器为Adam优化器
optimizer='adam',
# 设置损失函数为交叉熵损失函数(tf.keras.losses.SparseCategoricalCrossentropy())
# from_logits为True时,会将y_pred转化为概率(用softmax),否则不进行转换,通常情况下用True结果更稳定
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
# 设置性能指标列表,将在模型训练时监控列表中的指标
metrics=['accuracy'])
九、训练模型
"""
这里设置输入训练数据集(图片及标签)、验证数据集(图片及标签)以及迭代次数epochs
关于model.fit()函数的具体介绍可参考我的博客:
https://blog.csdn.net/qq_38251616/category_10258234.html
"""
history = model.fit(
# 输入训练集图片
train_images,
# 输入训练集标签
train_labels,
# 设置10个epoch,每一个epoch都将会把所有的数据输入模型完成一次训练。
epochs=10,
# 设置验证集
validation_data=(test_images, test_labels))
Epoch 1/10
1875/1875 [==============================] - 8s 2ms/step - loss: 0.1403 - accuracy: 0.9581 - val_loss: 0.0551 - val_accuracy: 0.9813
Epoch 2/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0466 - accuracy: 0.9859 - val_loss: 0.0438 - val_accuracy: 0.9853
Epoch 3/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0335 - accuracy: 0.9893 - val_loss: 0.0356 - val_accuracy: 0.9884
Epoch 4/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0248 - accuracy: 0.9920 - val_loss: 0.0395 - val_accuracy: 0.9873
Epoch 5/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0180 - accuracy: 0.9941 - val_loss: 0.0314 - val_accuracy: 0.9901
Epoch 6/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0144 - accuracy: 0.9951 - val_loss: 0.0274 - val_accuracy: 0.9903
Epoch 7/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0108 - accuracy: 0.9963 - val_loss: 0.0316 - val_accuracy: 0.9909
Epoch 8/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0101 - accuracy: 0.9969 - val_loss: 0.0325 - val_accuracy: 0.9909
Epoch 9/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0069 - accuracy: 0.9976 - val_loss: 0.0362 - val_accuracy: 0.9903
Epoch 10/10
1875/1875 [==============================] - 3s 1ms/step - loss: 0.0065 - accuracy: 0.9979 - val_loss: 0.0365 - val_accuracy: 0.9903
313/313 [==============================] - 0s 707us/step
十、预测
plt.imshow(test_images[1])
运行结果:
pre = model.predict(test_images) # 对所有测试图片进行预测
print(pre[1]) # 输出第一张图片的预测结果
运行结果:
[ 3.2823684 3.9213538 24.54589 -12.544517 -7.9918375 -29.036798
-3.8218646 -9.056095 -9.913481 -14.245941 ]
十一、总结
本次基于深度学习的TensorFlow实现mnist手写数字识别项目总结如下:
本周主要学习使用TensorFlow 框架实现手写数字识别,学习该框架使用语法、使用的库、以及如何实现图片识别的内容。而TensorFlow 是一个用于机器学习的开源框架,可以用来快速地构建神经网络,同时快捷地进行网络的训练、评估与保存。
MNIST手写数字数据集介绍
MNIST手写数字数据集来源于是美国国家标准与技术研究所,是著名的公开数据集之一。数据集中的数字图片是由250个不同职业的人纯手写绘制,MNIST手写数字数据集中包含了70000张图片,其中60000张为训练数据,10000为测试数据,70000张图片均是28*28
,数据集样本如下: