(详解)手写数字识别——MNIST数据集分类简单版本

手写数字识别被称为tensorflow的入门,相当于C语言的hello world, 刚入门,为了打好基础,所以把入门时所有的疑惑都在此解答,对每一句代码做出解释,先贴代码。

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
#载入数据集,第一个数据为路径
mnist=input_data.read_data_sets("train-images-idx3-ubyte.gz",one_hot=True)
# 批次的大小,这里的//是整除
batch_size = 128
n_batch = mnist.train.num_examples // batch_size

x = tf.placeholder(tf.float32, [None,784])
y = tf.placeholder(tf.float32, [None, 10])

# 创建一个简单的神经网络
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([1, 10]))
prediction = tf.nn.softmax(tf.matmul(x,W) + b)

# 代价函数
loss = tf.reduce_mean(tf.square(y-prediction))

# 梯度下降法
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

# 初始化变量
init = tf.global_variables_initializer()

# 得到一个布尔型列表,存放结果是否正确
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(prediction,1)) #argmax 返回一维张量中最大值索引

# 求准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32)) # 把布尔值转换为浮点型求平均数

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(21):
        for batch in range(n_batch):
            # 获得批次数据
            batch_xs, batch_ys = mnist.train.next_batch(batch_size)
            sess.run(train_step, feed_dict={x:batch_xs, y:batch_ys})
        acc = sess.run(accuracy, feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print("Iter " + str(epoch) + " Testing Accuracy: " + str(acc))
import tensorflow as tf

在python中, import 意为导入一个包,在这里是导入tensorflow这个包,但是包有很多种,其中不乏名字很长的包,总不能每次用其中的方法的时候都打出那么一大串名字,那么 import tensorflow as tf 就让 tf 作为tensorflow的别名,tf.xxx 相当于 tensorflow.xxx ,这里的xxx指代tensorflow封装的方法。

from tensorflow.examples.tutorials.mnist import input_data

引入 mnist 包里的 input_data 类,其中封装了许多用来读取数据的方法,之后会见到。

mnist = input_data.read_data_sets(‘MNIST_data’, one_hot=True)

input_data.read_data_sets() 函数负责自动下载mnist数据集,执行完成后,会在当前目录下新建一个文件夹MNIST_data, 下载的数据将放入这个文件夹内。下载的四个文件为:
在这里插入图片描述
前两个文件是测试图像和测试标签,后两个文件是训练图像和训练标签。
图像全部都是手写数字,标签是0~9,代表手写数字对应的数字

one-hot :独热向量,拿手写数字做例子。其实识别数字可以当作一个分类问题,其分类结果用一个1x10的向量来表示,如果识别出5,那么其结果就是[[ 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]]

batch_size = 128
n_batch = mnist.train.num_examples // batch_size

这里就是数学意义上的操作了。batch是“批”,batch_size = 128,表示一个批次有128个样本,整个数据集有上万个样本,一般会按批来处理,处理的次数也就是 n_batch,总样本数除以批样本数,在python中,//表示整除。

x = tf.placeholder(tf.float32, [None,784])
y = tf.placeholder(tf.float32, [None, 10])

为x分配一个占位符, 类型是float32, 分配[None,784]的形状,其中784是单个展平的28乘28像素MNIST图像的维度,而None表示对应于批量大小的第一维可以是任何大小。之后会用feed_dict将具体数据传入,类似于C语言的传参。

W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([1, 10]))
prediction = tf.nn.softmax(tf.matmul(x,W) + b)

tf.Variable(initializer, name):initializer是初始化参数,可以有tf.random_normal,tf.constant等,name就是变量的名字。
tf.zeros([784,10]): 生成一个784 x 10的零矩阵
tf.matmul(x,W): 对x与W做矩阵乘法
tf.nn.softmax():可以先去看看softmax的官方定义,再回头看一个简单易懂的例子在这里插入图片描述
tf.nn.softmax()括号中是一个2x4的矩阵,其中所有元素都为1,用1除以矩阵的和就得到0.25了

loss = tf.reduce_mean(tf.square(y-prediction))

tf.square() : 字面意思就是求平方
tf.reduce_mean():沿着tensor的某一维度,计算元素的平均值。举一个简单的例子
在这里插入图片描述

train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

tf.train.GradientDescentOptimizer(0.2).minimize(loss):用梯度下降法来最小化loss函数,其中0.2为学习率。返回这个函数本身。

init = tf.global_variables_initializer()

tf.global_variables_initializer():初始化所有变量,也是返回函数本身。

correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(prediction,1))

tf.argmax(y,1): 返回最大数值的下标.例子:
在这里插入图片描述
tf.equal(): 得到一个布尔型列表,存放结果是否正确,预测正确为1,预测错误为0

accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

tf.cast(): 用于改变某个张量的数据类型, 这里把布尔值转换为浮点型求平均数,用来求准确率。

with tf.Session() as sess:

Session提供一个Operation执行和Tensor求值的环境,这个概念可以说是tensorflow的核心概念之一,参考官方文档对session的解释,个人理解session就是一个可以进行初始化、用于运行TensorFlow操作的房间。

sess.run()

前面定义了很多操作,比如初始化操作init,训练函数train_step等,但那仅仅是定义,只有sess.run(init) ,才能真正执行init这个函数。

batch_xs, batch_ys = mnist.train.next_batch(batch_size)

这行代码的含义是从数据集中随机取出 batch_size 张照片.
每次训练所有照片效果理论上应该是比较好的,但是这样很花费时间和空间.所以每次随机取出若干张.这就是所谓的随机梯度下降算法.
batch_xs是一个batch_size784的矩阵,是训练的数据,batch_ys是一个batch_size10的矩阵,是训练数据的标签.

sess.run(train_step, feed_dict={x:batch_xs, y:batch_ys})

回溯到train_step, 再看loss,再往回看y和prediction,prediction还需要x、W、b这些参数,而x 、y都是只占位还没有具体初始化的,这时候就需要“喂数据”,也就是 feed_dict={x:batch_xs, y:batch_ys} 这一步。acc = sess.run(accuracy, feed_dict={x:mnist.test.images,y:mnist.test.labels}) 同理。

这份代码就讲解完毕啦。

  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值