Tensorflow入门实战 T01-实现手写数字识别mnist

柠檬不萌只是酸i

已于 2024-06-14 18:06:26 修改

阅读量608

点赞数 11

于 2024-05-24 17:58:44 首次发布

本文链接：https://blog.csdn.net/Miss_liangrm/article/details/139179489

版权

深度学习专栏收录该内容

28 篇文章 1 订阅

订阅专栏

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制

1、背景：MNIST手写数字识别

MINIST手写数字数据集来源于美国国家标准与技术研究所，是著名的公开数据集。

数据集获取的网址：http://yann.lecun.com/exdb/mnist/（下载后需要解压）。

但是，我们一般会采用一行简单的代码来直接调用，无需去直接下载。

(train_images, train_labels),(test_images, test_labels) = datasets.mnist.load_data()

其中，MNIST手写数字集中包含了70000张图片，70000 = 60000（训练数据） + 10000（测试数据）。且图片都是28*28大小的。

如果我们把每一张图片中的像素转换为向量，则得到长度为28*28=784 的向量。因此我们可以把训练集看成是一个[60000, 784] 的张量，第一个维度表示图片的索引，第二个维度表示每张图片中的像素点。而图片里的每个像素点的值介于0-1之间。

2、完整代码（Tensorflow）：

# 前期工作
# 1、设置GPU
import tensorflow as tf
gpus = tf.config.list_physical_devices("GPU")

if gpus:
    gpu0 = gpus[0]  # 如果有多个GPU，仅使用第0个GPU
    tf.config.experimental.set_memory_growth(gpu0, True)  # 设置GPU显存用量按需使用，这样Tensorflow不会一开始就占用全部显存
    tf.config.set_visible_devices([gpu0], "GPU")  # 设置Tensorflow可见的GPU设备列表。


# 2、导入mnist 数据
from keras import datasets, layers, models
import matplotlib.pyplot as plt

# 导入mnist数据，依次分别为 训练集图片、训练集标签、测试集图片、测试集标签
(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()

# 将像素的值标准化至0到1的区间内。(对于灰度图片来说，每个像素最大值是255，每个像素最小值是0，也就是直接除以255就可以完成归一化。)
train_images, test_images = train_images / 255.0, test_images / 255.0


# 3、可视化图片
# 将数据集前20个图片数据可视化显示，并进行图像大小为20宽、10长的绘图(单位为英寸inch)
plt.figure(figsize=(20,10))
# 遍历MNIST数据集下标数值0~49
for i in range(20):
    plt.subplot(2,10,i+1)   # 将整个figure分成5行10列，绘制第i+1个子图。
    plt.xticks([])  # 设置不显示x轴刻度
    plt.yticks([]) # 设置不显示y轴刻度
    plt.grid(False) # 设置不显示子图网格线
    plt.imshow(train_images[i], cmap=plt.cm.binary)  # 图像展示，cmap为颜色图谱，"plt.cm.binary"为matplotlib.cm中的色表
    plt.xlabel(train_labels[i])  # 设置x轴标签显示为图片对应的数字
plt.show() # 显示图片


# 4、调整图片格式（调整数据到我们需要的格式）
train_images = train_images.reshape((60000, 28, 28, 1))
test_images = test_images.reshape((10000, 28, 28, 1))
print(train_images.shape, test_images.shape, train_labels.shape, test_labels.shape)
#       (60000, 28, 28, 1)  (10000, 28, 28, 1)  (60000,)            (10000,)


# 5、搭建卷积神经网络
'''
    创建并设置卷积神经网络
    ① 卷积层：通过卷积操作对输入图像进行降维和特征抽取
    ② 池化层：是一种非线性形式的下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的鲁棒性。
    ③ 全连接层：在经过几个卷积和池化层之后，神经网络中的高级推理通过全连接层来完成。
'''

model = models.Sequential([
    # 设置二维卷积层1，设置32个3*3卷积核，activation参数将激活函数设置为ReLu函数，input_shape参数将图层的输入形状设置为(28, 28, 1)
    # ReLu函数作为激活励函数可以增强判定函数和整个神经网络的非线性特性，而本身并不会改变卷积层
    # 相比其它函数来说，ReLU函数更受青睐，这是因为它可以将神经网络的训练速度提升数倍，而并不会对模型的泛化准确度造成显著影响。
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    # 池化层1，2*2采样
    layers.MaxPooling2D((2, 2)),
    # 设置二维卷积层2，设置64个3*3卷积核，activation参数将激活函数设置为ReLu函数
    layers.Conv2D(64, (3, 3), activation='relu'),
    # 池化层2，2*2采样
    layers.MaxPooling2D((2, 2)),

    layers.Flatten(),  # Flatten层，连接卷积层与全连接层
    layers.Dense(64, activation='relu'),  # 全连接层，特征进一步提取，64为输出空间的维数，activation参数将激活函数设置为ReLu函数
    layers.Dense(10)  # 输出层，输出预期结果，10为输出空间的维数
])
# 打印网络结构
# model.summary()

# 6、编译模型

"""
    这里设置优化器、损失函数以及metrics
    这三者具体介绍可参考我的博客：
    https://blog.csdn.net/qq_38251616/category_10258234.html
"""
# model.compile()方法用于在配置训练方法时，告知训练时用的优化器、损失函数和准确率评测标准
model.compile(
    optimizer='adam',  # 设置优化器为Adam优化器
    # 设置损失函数为交叉熵损失函数（tf.keras.losses.SparseCategoricalCrossentropy()）
    # from_logits为True时，会将y_pred转化为概率（用softmax），否则不进行转换，通常情况下用True结果更稳定
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    # 设置性能指标列表，将在模型训练时监控列表中的指标
    metrics=['accuracy'])

# 训练模型

"""
这里设置输入训练数据集（图片及标签）、验证数据集（图片及标签）以及迭代次数epochs
关于model.fit()函数的具体介绍可参考我的博客：
https://blog.csdn.net/qq_38251616/category_10258234.html
"""
history = model.fit(
    train_images,  # 输入训练集图片
    train_labels,  # 输入训练集标签
    epochs=10,  # 设置10个epoch，每一个epoch都将会把所有的数据输入模型完成一次训练。
    validation_data=(test_images, test_labels))  # 设置验证集

# 预测模型
plt.imshow(test_images[1])  # 将数据变换成图像
plt.show()  # 将图像显示出来！！！

pre = model.predict(test_images) # 对所有测试图片进行预测
print(pre[1])  # 输出第一张图片的预测结果

3、运行过程及结果：

4、小结（还是很清晰的）

学习过程总是坎坷的，每次都会遇到各种问题，但是这就需要我们有很好的解决能力。现在科技这么发达，很多AI，还有网上很多的博客、大神之类的，这些都是帮助我们前进的助力。

先说说我吧：

我之前一直写的是pytorch，只听说过tensorflow，但是没有实际使用过，这周是第一次暗转tensorflow，刚开始页式各种的问题，下面我细细列举几个：

① tensorflow需要3.8版本的python。我的python是3.10的，安装失败了，看到提示才知道需要python3.8版本，于是就果断的`conda create -n tensorflow -n python=3.8`

② 环境安装好了，开始安装tensorflow: pip install tensorflow

③ 安装好tensorflow，pip list 检查已经安装好。开始写代码

④ 刚写没几行，报错。

⑤ 点进去tensorflow 里面根本没有keras ，去网上搜了下，发现是需要这样的。

于是，再次去查看了pip list，查看先关的包，发现tensorflow和keras 都存在，而且不是父子关系。于是就把报错那块的tensorflow.keras 换成 keras 就可以了！！！！

⑥ plt.imshow(test_images[1]) 代码里面的这快，是要显示测试数据集里面的第一个图片，但是运行代码，一直不显示。于是，我又去网上搜索了，看了下 plt.imshow() 和plt.show()的区别。

好好好，这样写就好了。

⑦ 后续在没有任何报错了。very good！！！！

⑧ 推荐一个学习tensorflow学习的网站（可以当个词典）：TensorFlow官方文档_w3cschool

5、展望

加油，今年争取发个论文。最近一直在看相关论文，跑实验！！！！

Good luck to me ！！

柠檬不萌只是酸i

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Tensorflow入门实战 T01-实现手写数字识别mnist

如果我们把每一张图片中的像素转换为向量，则得到长度为28*28=784 的向量。因此我们可以把训练集看成是一个[60000, 784] 的张量，第一个维度表示图片的索引，第二个维度表示每张图片中的像素点。而图片里的每个像素点的值介于0-1之间。其中，MNIST手写数字集中包含了70000张图片，70000 = 60000（训练数据） + 10000（测试数据）。MINIST手写数字数据集来源于美国国家标准与技术研究所，是著名的公开数据集。但是，我们一般会采用一行简单的代码来直接调用，无需去直接下载。
复制链接

扫一扫