TensorFlow实现Softmax Regression手写数字识别

最新推荐文章于 2019-06-22 22:11:38 发布

东风逍遥游

最新推荐文章于 2019-06-22 22:11:38 发布

阅读量816

点赞数 2

分类专栏： Tensorflow教程文章标签： TensorFlow Softmax MNIST 手写数字识别

本文链接：https://blog.csdn.net/csdnldp/article/details/73294277

版权

Tensorflow教程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

MNIST数据集
one-hot编码
Softmax Regression算法
- 使用TensorFlow实现Softmax算法
主要步骤
完整的代码实现
总结

这篇文章是学习《TensorFlow实战-黄文坚》过程中的笔记，具体的实现细节请参考原书。

1.MNIST数据集

MNIST(Mixed National Istisute of Standards and Technology databast)是一个简单的机器视觉数据集，由几万张28*28像素的手写数字图片组成，图片只包含灰度信息。目标是使用Softmax对手写数字图片进行分类，数字为0~9一共10类。MNIST数据集由55000个训练样本，10000个测试样本，5000个验证样本。每一个样本都有对应的标注信息（label）。在样本集上训练模型，在验证集上检验效果病决定何时完成训练，最后在测试集上评测模型的效果。由于样本是28*28像素，展开之后会变成784维的向量（每一个点对应一个维度），这是一种简单的处理方法，舍去了图片的二维结构方面的信息。最终的训练数据的特征是一个55000*784的Tensor，第一个维度是图片的编号，第二个维度是图片中像素点的编号。训练数据的Label是55000*10的Tensor，对10个类进行one-hot编码处理，Lebel是一个10维的向量，只有一个值为1，其余全部为零。
在spyder中载入数据集后，可以用如下命令查看数据的维度（完整代码见之后的实现部分）：

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

print(mnist.train.images.shape, mnist.train.labels.shape)
print(mnist.test.images.shape, mnist.test.labels.shape)
print(mnist.validation.images.shape, mnist.validation.labels.shape)

输出结果

(55000, 784) (55000, 10)    #训练集和对应标签的维度
(10000, 784) (10000, 10)    #测试集和对应标签的维度
(5000, 784) (5000, 10)      #验证集和对应标签的维度

2.one-hot编码

分类器默认数据数据是连续的，并且是有序的，但实际使用的分类标签并不是有序的，而是随机分配的。one-hot编码又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。
这样做的好处主要有：
1. 解决了分类器不好处理属性数据的问题
2. 在一定程度上也起到了扩充特征的作用

3.Softmax Regression算法

Softmax的原理比较简单，将可以判定为某一类的特征相加，转化为判定是某一类的概率，分别计算每一种类别对应的概率，再通过比较这些概率的大小，找出概率最大的类对应的数字作为模型的输出结果。其中，权重是模型根据数据自动学习，训练得出。

使用TensorFlow实现Softmax算法

首先载入TensorFlow库，并新建一个InteractiveSession（会将这个session注册为默认的session，之后的运算也默认在这个session中，不同session之间的数据和运算应该都是相互独立的）。接下来创建一个Placeholder，即输入数据的地方。其中第一个参数是数据类型，第二个参数是tensor的shape，None代表不限条数的输入。

import tensorflow as tf
sess = tf.InteractiveSession()
x = tf.placeholder(tf.float32, [None, 784])

接下来给Softmax Regression模型中的weights和biases创建Variable对象。因为Softmax Regression模型比较简单，将weights和biases都初始化为0，不会影响训练的过程。Variable对象在模型训练迭代中是持久化的，它可以长期存在并且在每轮迭代中被更新；另一种存储数据的tensor在使用之后则会消失。

W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

利用y=softmax（Wx + b）实现Softmax Regression算法：
y = tf.nn.softmax(tf.matmul(x, W) + b) #注意x和W的行数和列数要满足矩阵乘法的运算规则
其中，tf.nn包含了大量神经网络的组件，softmax只是其中的一个函数。

为训练模型，需要定义一个loss function来描述模型对问题的分类精度。Loss越小，代表分类结果与真实值的偏差越小，拟合结果越精确。在初始化过程中，给模型填充了全零的参数，这样模型会有一个初始的loss，在训练过程中不断将这个loss减小，直到达到全局或者局部的最优值。对于多分类问题，通常使用cross-entropy作为loss function。在TensorFlow中定义cross-entropy：

y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))

其中，tf.reduce_sum函数的意义为降维求和，可以参考知乎

接下来需要定义优化算法，这里采用常见的**随机梯度下降算法**SGD（Stochastic Gradient Descent）
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
设置学习速率为0.5，优化目标设定为cross-entropy最小，得到训练操作的train_step

下一步使用全局参数初始化器，并直接执行run方法：
tf.global_variables_initializer().run()

最后迭代执行训练操作：

for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x:batch_xs, y_:batch_ys})

这里每次随机从训练集中抽取100条样本构成一个mini-batch，并feed给placeholder，然后调用train_step对这些样本进行训练。使用县部分样本进行训练称为随机梯度下降，大多数时候这种方法比全样本训练的收敛速度快很多。

完成训练后需要对模型的准确率进行验证。

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))    #判断是否正确
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))  #计算正确率
print(accuracy.eval({x:mnist.test.images, y_:mnist.test.labels})    #输出

其中，tf.argmax就是返回最大的那个数值所在的下标，具体的参数定义可见 tf.argmax()以及axis解析，注意数组维度的起始值为0。

4.主要步骤

在TensorFlow上实现一个机器学习算法，主要工作可以分为以下部分：
1. 定义算法公式，也就是神经网络forward时的计算
2. 定义loss，选定优化器，定义loss function
3. 迭代对数据进行训练
4. 在测试集或验证集上对准确率进行评测

注意：定义的各个公式只是Computation Graph，在执行这些代码时，计算实际上还没有发生，直到调用run方法，并且feed数据时，计算才真正执行。其中的cross-entropy、train_step、accuracy等都是计算图中的节点，并不是数据的结果，可以用run方法来执行节点或者说运算操作来获取结果。

5.完整的代码实现

from tensorflow.examples.tutorials.mnist import input_data  # load mnist data
import tensorflow as tf

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

print(mnist.train.images.shape, mnist.train.labels.shape)
print(mnist.train.images.shape, mnist.test.labels.shape)
print(mnist.train.images.shape, mnist.validation.labels.shape)


sess = tf.InteractiveSession()
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

y = tf.nn.softmax(tf.matmul(x, W) + b)
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

tf.global_variables_initializer().run()

for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x:batch_xs, y_:batch_ys})

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(accuracy.eval({x:mnist.test.images, y_:mnist.test.labels}))

6.总结

开始进入了机器学习这个天坑，这篇文章只是对书中一些关键点做了一些笔记，对一些不懂的细节查找资料进行解释。希望之后能够耐心坚持下去～

参考链接：
http://blog.csdn.net/dulingtingzi/article/details/51374487
https://www.zhihu.com/question/51325408?from=profile_question_card
http://blog.csdn.net/qq575379110/article/details/70538051

东风逍遥游

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
TensorFlow实现Softmax Regression手写数字识别

MNIST数据集one-hot编码Softmax Regression算法使用TensorFlow实现Softmax算法主要步骤完整的代码实现总结这篇文章是学习《TensorFlow实战-黄文坚》过程中的笔记，这本书对理论部分解释较少，主要集中于TensorFlow的使用和理解部分，具体的细节还需要参考TensorFlow的官方文档MNIST数据集MNIST
复制链接

扫一扫

专栏目录