（详解）手写数字识别——MNIST数据集分类简单版本

最新推荐文章于 2024-06-08 19:25:36 发布

qq_42899589

最新推荐文章于 2024-06-08 19:25:36 发布

阅读量4.1k

点赞数 6

文章标签： tensorflow 入门 mnist

本文链接：https://blog.csdn.net/qq_42899589/article/details/98943404

版权

手写数字识别被称为tensorflow的入门，相当于C语言的hello world, 刚入门，为了打好基础，所以把入门时所有的疑惑都在此解答，对每一句代码做出解释，先贴代码。

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
#载入数据集,第一个数据为路径
mnist=input_data.read_data_sets("train-images-idx3-ubyte.gz",one_hot=True)
# 批次的大小,这里的//是整除
batch_size = 128
n_batch = mnist.train.num_examples // batch_size

x = tf.placeholder(tf.float32, [None,784])
y = tf.placeholder(tf.float32, [None, 10])

# 创建一个简单的神经网络
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([1, 10]))
prediction = tf.nn.softmax(tf.matmul(x,W) + b)

# 代价函数
loss = tf.reduce_mean(tf.square(y-prediction))

# 梯度下降法
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

# 初始化变量
init = tf.global_variables_initializer()

# 得到一个布尔型列表，存放结果是否正确
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(prediction,1)) #argmax 返回一维张量中最大值索引

# 求准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32)) # 把布尔值转换为浮点型求平均数

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(21):
        for batch in range(n_batch):
            # 获得批次数据
            batch_xs, batch_ys = mnist.train.next_batch(batch_size)
            sess.run(train_step, feed_dict={x:batch_xs, y:batch_ys})
        acc = sess.run(accuracy, feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print("Iter " + str(epoch) + " Testing Accuracy: " + str(acc))

import tensorflow as tf

在python中， import 意为导入一个包，在这里是导入tensorflow这个包，但是包有很多种，其中不乏名字很长的包，总不能每次用其中的方法的时候都打出那么一大串名字，那么 import tensorflow as tf 就让 tf 作为tensorflow的别名，tf.xxx 相当于 tensorflow.xxx ,这里的xxx指代tensorflow封装的方法。

from tensorflow.examples.tutorials.mnist import input_data

引入 mnist 包里的 input_data 类，其中封装了许多用来读取数据的方法，之后会见到。

mnist = input_data.read_data_sets(‘MNIST_data’, one_hot=True)

input_data.read_data_sets() 函数负责自动下载mnist数据集，执行完成后，会在当前目录下新建一个文件夹MNIST_data, 下载的数据将放入这个文件夹内。下载的四个文件为：
在这里插入图片描述
前两个文件是测试图像和测试标签，后两个文件是训练图像和训练标签。
图像全部都是手写数字，标签是0~9，代表手写数字对应的数字

one-hot :独热向量，拿手写数字做例子。其实识别数字可以当作一个分类问题，其分类结果用一个1x10的向量来表示，如果识别出5，那么其结果就是[[ 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]]

batch_size = 128

n_batch = mnist.train.num_examples // batch_size

这里就是数学意义上的操作了。batch是“批”，batch_size = 128，表示一个批次有128个样本，整个数据集有上万个样本，一般会按批来处理，处理的次数也就是 n_batch,总样本数除以批样本数，在python中，//表示整除。

x = tf.placeholder(tf.float32, [None,784])

y = tf.placeholder(tf.float32, [None, 10])

为x分配一个占位符, 类型是float32, 分配[None，784]的形状，其中784是单个展平的28乘28像素MNIST图像的维度，而None表示对应于批量大小的第一维可以是任何大小。之后会用feed_dict将具体数据传入，类似于C语言的传参。

W = tf.Variable(tf.zeros([784,10]))

b = tf.Variable(tf.zeros([1, 10]))

prediction = tf.nn.softmax(tf.matmul(x,W) + b)

tf.Variable（initializer， name）：initializer是初始化参数，可以有tf.random_normal，tf.constant等，name就是变量的名字。
tf.zeros([784,10]): 生成一个784 x 10的零矩阵
tf.matmul(x,W): 对x与W做矩阵乘法
tf.nn.softmax():可以先去看看softmax的官方定义，再回头看一个简单易懂的例子在这里插入图片描述
tf.nn.softmax()括号中是一个2x4的矩阵，其中所有元素都为1，用1除以矩阵的和就得到0.25了

loss = tf.reduce_mean(tf.square(y-prediction))

tf.square() : 字面意思就是求平方
tf.reduce_mean()：沿着tensor的某一维度，计算元素的平均值。举一个简单的例子
在这里插入图片描述

train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

tf.train.GradientDescentOptimizer(0.2).minimize(loss)：用梯度下降法来最小化loss函数，其中0.2为学习率。返回这个函数本身。

init = tf.global_variables_initializer()

tf.global_variables_initializer()：初始化所有变量，也是返回函数本身。

correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(prediction,1))

tf.argmax(y,1): 返回最大数值的下标.例子：
在这里插入图片描述
tf.equal(): 得到一个布尔型列表，存放结果是否正确，预测正确为1，预测错误为0

accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

tf.cast(): 用于改变某个张量的数据类型, 这里把布尔值转换为浮点型求平均数，用来求准确率。

with tf.Session() as sess:

Session提供一个Operation执行和Tensor求值的环境，这个概念可以说是tensorflow的核心概念之一，参考官方文档对session的解释，个人理解session就是一个可以进行初始化、用于运行TensorFlow操作的房间。

sess.run()

前面定义了很多操作，比如初始化操作init，训练函数train_step等，但那仅仅是定义，只有sess.run(init) ，才能真正执行init这个函数。

batch_xs, batch_ys = mnist.train.next_batch(batch_size)

这行代码的含义是从数据集中随机取出 batch_size 张照片.
每次训练所有照片效果理论上应该是比较好的,但是这样很花费时间和空间.所以每次随机取出若干张.这就是所谓的随机梯度下降算法.
batch_xs是一个batch_size784的矩阵,是训练的数据,batch_ys是一个batch_size10的矩阵,是训练数据的标签.

sess.run(train_step, feed_dict={x:batch_xs, y:batch_ys})

回溯到train_step, 再看loss，再往回看y和prediction，prediction还需要x、W、b这些参数，而x 、y都是只占位还没有具体初始化的，这时候就需要“喂数据”，也就是 feed_dict={x:batch_xs, y:batch_ys} 这一步。acc = sess.run(accuracy, feed_dict={x:mnist.test.images,y:mnist.test.labels}) 同理。

这份代码就讲解完毕啦。

qq_42899589

关注

6
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
（详解）手写数字识别——MNIST数据集分类简单版本

手写数字识别被称为tensorflow的入门，相当于C语言的hello world, 刚入门，为了打好基础，所以把入门时所有的疑惑都在此解答，先贴代码。import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data#载入数据集,第一个数据为路径mnist=input_data.read_da...
复制链接

扫一扫