Tensorflow实战手写数字识别（Tensorboard可视化）

最新推荐文章于 2024-08-08 16:44:55 发布

weixin_30251829

最新推荐文章于 2024-08-08 16:44:55 发布

阅读量1k

点赞数 1

文章标签：人工智能开发工具

原文链接：http://www.cnblogs.com/hls91/p/10874131.html

版权

本文通过Tensorflow实现手写数字识别，利用MNIST数据集进行训练，并详细介绍Tensorboard的使用，包括数据形式和可视化过程。在训练过程中，使用Tensorboard对模型的损失、准确率等关键指标进行可视化，以便更好地理解和优化模型。文章还提供了代码实现和Tensorboard的Web端解释，展示训练过程中的各项信息。

摘要由CSDN通过智能技术生成

一、前言

为了更好的理解Neural Network，本文使用Tensorflow实现一个最简单的神经网络，然后使用MNIST数据集进行测试。同时使用Tensorboard对训练过程进行可视化，算是打响学习Tensorflow的第一枪啦。

看本文之前，希望你已经具备机器学习和深度学习基础。

机器学习基础可以看我的系列博文：

https://cuijiahua.com/blog/ml/

深度学习基础可以看吴恩达老师的公开课：

http://mooc.study.163.com/smartSpec/detail/1001319001.htm

二、MNIST数据集简介

当我们学习新的编程语言时，通常第一个程序就是打印输出著名的“Hello World!”。在深度学习中，MNIST数据集就相当于Hello World。

MNIST是一个简单的计算机视觉数据集，它包含手写数字的图像集：

数据集：

train-images-idx3-ubyte 训练数据图像 (60,000)
train-labels-idx1-ubyte 训练数据label
t10k-images-idx3-ubyte 测试数据图像 (10,000)
t10k-labels-idx1-ubyte 测试数据label

每张图像是28 * 28像素：

我们的任务是使用上面数据训练一个可以准确识别手写数字的神经网络模型，并使用Tensorflow对训练过程各个参数的变化进行可视化。

三、Tensorboard简介

本文要使用到Tensorboard，先让我们看看它究竟是用来干什么的。

当使用Tensorflow训练大量深层的神经网络时，我们希望去跟踪神经网络的整个训练过程中的信息，比如迭代的过程中每一层参数是如何变化与分布的，比如每次循环参数更新后模型在测试集与训练集上的准确率是如何的，比如损失值的变化情况，等等。如果能在训练的过程中将一些信息加以记录并可视化得表现出来，是不是对我们探索模型有更深的帮助与理解呢？

Tensorflow官方推出了可视化工具Tensorboard，可以帮助我们实现以上功能，它可以将模型训练过程中的各种数据汇总起来存在自定义的路径与日志文件中，然后在指定的web端可视化地展现这些信息。

1、Tensorboard的数据形式：

Tensorboard可以记录与展示以下数据形式：

（1）标量Scalars

（2）图片Images

（3）音频Audio

（4）计算图Graph

（5）数据分布Distribution

（6）直方图Histograms

（7）嵌入向量Embeddings

2、Tensorboard的可视化过程：

（1）首先肯定是先建立一个graph,你想从这个graph中获取某些数据的信息

（2）确定要在graph中的哪些节点放置summary operations以记录信息

使用tf.summary.scalar记录标量

使用tf.summary.histogram记录数据的直方图

使用tf.summary.distribution记录数据的分布图

使用tf.summary.image记录图像数据

.....等等

（3）operations并不会去真的执行计算，除非你告诉他们需要去run,或者它被其他的需要run的operation所依赖。而我们上一步创建的这些summary operations其实并不被其他节点依赖，因此，我们需要特地去运行所有的summary节点。但是呢，一份程序下来可能有超多这样的summary 节点，要手动一个一个去启动自然是及其繁琐的，因此我们可以使用tf.summary.merge_all去将所有summary节点合并成一个节点，只要运行这个节点，就能产生所有我们之前设置的summary data。

（4）使用tf.summary.FileWriter将运行后输出的数据都保存到本地磁盘中

（5）运行整个程序，并在命令行输入运行tensorboard的指令，之后打开web端可查看可视化的结果

考虑多类情况。非onehot，标签是类似0 1 2 3...n这样。而onehot标签则是顾名思义，一个长度为n的数组，只有一个元素是1.0，其他元素是0.0。例如在n为4的情况下，标签2对应的onehot标签就是 0.0 0.0 1.0 0.0使用onehot的直接原因是现在多分类cnn网络的输出通常是softmax层，而它的输出是一个概率分布，从而要求输入的标签也以概率分布的形式出现，进而算交叉熵之类。

四、手写数字识别

现在，我们使用最基础的手写数字识别。

1、准备数据集、定义超参数等准备工作

（1）首先是导入需要使用的包：

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

import os

（2）定义超参数

如果你问，这个超参数为啥要这样设定，如何选择最优的超参数？这个问题此处先不讨论，超参数的选择在机器学习建模中最常用的方法就是“交叉验证法”。而现在假设我们已经获得了最优的超参数，设置学利率为0.001，dropout的保留节点比例为0.9，最大循环次数为1000。

另外，还要设置两个路径，第一个是数据下载下来存放的地方，一个是summary输出保存的地方。

max_steps = 1000 # 最大迭代次数

learning_rate = 0.001 # 学习率

dropout = 0.9 # dropout时随机保留神经元的比例

data_dir = './MNIST_DATA' # 样本数据存储的路径

log_dir = './MNIST_LOG' # 输出日志保存的路径

（3）GPU设置

这里使用GPU进行训练，如果使用cpu，可以略过此步。如果使用GPU建议进行设置。

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

config = tf.ConfigProto(allow_soft_placement = True)

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction = 0.33)

config.gpu_options.allow_growth = True

上述代码的意思是使用GPU设备0，最多给GPU分配总共内存的百分之33，并且允许GPU按需申请内存。也就是说，假设一个程序使用一块GPU内存百分之10就够了，如果我们没有指定allow_growth=True，那么程序会直接占用GPU内存的百分之33，因为这个是我们给它分配的。如果我们连0.33，也就是GPU内存的百分之33都没有指定，那么程序会直接占用整个GPU设备0。虽然占用这么多没有用，但是我就占着，属于“占着茅坑不拉屎”。所以，为了充分利用资源，特别是一帮人使用一个服务器的时候，指定下这些参数就很有必要了。

（4）下载数据下载数据是直接调用了tensorflow提供的函数read_data_sets，输入两个参数，第一个是下载到数据存储的路径，第二个one_hot表示是否要将类别标签进行独热编码。它首先回去找制定目录下有没有这个数据文件，没有的话才去下载，有的话就直接读取。所以第一次执行这个命令，速度会比较慢，因为没有数据集，需要进行下载。

1 2	# 获取数据集，并采用采用one_hot编码 mnist = input_data.read_data_sets(data_dir,one_hot = True)

2、数据处理

（1）创建tensorflow默认会话：

1	sess = tf.InteractiveSession(config = config)

为了使设置的GPU参数生效，我们需要在创建会话的时候传入这个config参数。

（2）创建输入数据的占位符，分别创建特征数据x，标签数据y_

在tf.placeholder()函数中传入了3个参数，第一个是定义数据类型为float32；第二个是数据的大小，特征数据是大小784的向量，标签数据是大小为10的向量，None表示不定死大小，到时候可以传入任何数量的样本；第3个参数是这个占位符的名称。

with tf.name_scope('input'):

x = tf.placeholder(tf.float32, [None, 784], name='x-input')

y_ = tf.placeholder(tf.float32, [None, 10], name='y-input')

mnist下载好的数据集就是很多个1*784的向量，就是已经对28*28的图片进行了向量化处理。

（3）使用tf.summary.image保存图像信息

前面也说了，特征数据其实就是图像的像素数据拉升成一个1*784的向量，现在如果想在tensorboard上还原出输入的特征数据对应的图片，就需要将拉升的向量转变成28 * 28 * 1的原始像素了，于是可以用tf.reshape()直接重新调整特征数据的维度：

将输入的数据转换成[28 * 28 * 1]的shape，存储成另一个tensor，命名为image_shaped_input。
为了能使图片在tensorbord上展示出来，使用tf.summary.image将图片数据汇总给tensorbord。
tf.summary.image（）中传入的第一个参数是命名，第二个是图片数据，第三个是最多展示的张数，此处为10张。