TensorFlow 学习 - MNIST 之 SoftMax Regression 实现（完整代码，拷贝可运行）

最新推荐文章于 2022-04-28 12:28:13 发布

Whu_Xcy

最新推荐文章于 2022-04-28 12:28:13 发布

阅读量902

点赞数 1

分类专栏： TensorFlow 文章标签： TensorFlow

本文链接：https://blog.csdn.net/u011060119/article/details/72843076

版权

TensorFlow 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了如何使用TensorFlow实现MNIST数据集上的SoftMax Regression模型，详细解析了模型的原理和实现过程，包括权重和偏置的计算、交叉熵损失函数、梯度下降优化以及模型评估。

摘要由CSDN通过智能技术生成

数据集以及模型介绍

MNIST 数据集： Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun建的手写数字数据库，训练库有60,000张手写数字图像，测试库有10,000张。

每一个MNIST数据单元有两部分组成：一张包含手写数字的图片和一个对应的标签。我们把这些图片设为“xs”，把这些标签设为“ys”。训练数据集和测试数据集都包含xs和ys，比如训练数据集的图片是mnist.train.images ，训练数据集的标签是 mnist.train.labels。每张图片包含28*28的像素点，把矩阵“拉伸”成为向量就可以得到28*28=784的张量。

在训练集合中，我们会得到一个 mnist.train.images ： [60000 , 784 ]的张量，第一个维度是图片的索引，第二个是图片中的像素点（0-1）；
训练集合中的标签[0-9]用 one-hot vectors 的方式表示，例标签0 表示（[1,0,0,0,0,0,0,0,0,0]）因此mnist.train.labels ：[60000,10] 的张量；

SoftMax Regression模型介绍：
模型得到是分到每一个类别的概率，回归分为两步：
Step1: 得到“证据”evidence
权重：首先对图片像素值加权求和，如果该像素强有力的说明该图片属于该类别，那么权重为正数，否则为负值。
偏置(bias)：手写的图片有一定的干扰量，加入偏置b
此时证据Evidence 表示为：

e v d i = (\sum j \in J w i, j \times x j + b i)

$evdi =\left( \sum\nolimits_{j\in J}w_{i,j}\times x_{j} + b_{i}\right)$
其中

wi,j $w_{i,j}$ 代表权重，

bi $b_{i}$ 代表偏置.
Step2: 利用 softmax函数把evdi转换成概率y:
y = softmax(evdi)
softmax 函数可以看做是激励函数，把定义的线性函数的输出转换成我们需要的格式，即关于0-9折是个数字的概率分布。定义softmax函数为：

s o f t m a x (x) = n o r m a l i z e (e x p (x)) .

$softmax(x) = normalize(exp(x)).$
展开右边可以得到：

s o f t m a x (x) i = e x p ( x i ) \sum j e x p ( x j ) .

$softmax(x)_{i} =\frac{exp(x_{i})}{\sum \nolimits_{j} exp(x_{j})}.$
用向量表示这个计算过程,公式1：

y = s o f t m a x (W \times x + b)

$y = softmax(W\times x + b)$

模型的实现

首先整体代码片如下：

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import gzip
import os
import tempfile

import numpy
from six.moves import urllib
from six.moves import xrange  # pylint: disable=redefined-builtin
import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

import tensorflow as tf
x = tf.placeholder(tf.float32, [None,784])
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))

y = tf.nn.softmax(tf.matmul(x,W)+b)

y_ = tf.placeholder("float",[None,10])
cross_entropy = -tf.reduce_sum(y_ *tf.log(y))

train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

init = tf.initialize_all_variables()

sess = tf.Session()
sess.run(init)
for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict ={x:batch_xs,y_:batch_ys})


correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
print (sess.run(accuracy,feed_dict={x:mnist.test.images, y_:mnist.test.labels}))

分段介绍：
下载MNIST数据集

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import gzip
import os
import tempfile

import numpy
from six.moves import urllib
from six.moves import xrange  # pylint: disable=redefined-builtin
import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

创建符号变量描述交互的操作单元
其中x是一个28*28 = 784的向量， W是权重 784（x）x 10(y) ，b是偏置

import tensorflow as tf
x = tf.placeholder(tf.float32, [None,784])
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))

定义模型的实现,对应公式1

y = tf.nn.softmax(tf.matmul(x,W)+b)

训练模型：定义指标评估模型的好坏–交叉熵：

H y, (y) = - \sum y y, l o g (y i)

$H_{y^{,}(y)} = -\sum\nolimits_{y}y^{,}log(y_{i})$
其中

y $y$ 是预测的概率分布,

y, $y^{,}$ 是实际的分布，定义交叉熵的计算如下

y_ = tf.placeholder("float",[None,10])
cross_entropy = -tf.reduce_sum(y_ *tf.log(y))

随后我们TensorFlow来实现模型，TensorFlow有一张描述计算单元的图，自动的使用反向传播算法有效的确定变量如何影响模型，根据我们选择的优化算法为例不断的修改变量降低成本，在这里我们采用梯度下降的方法，学习速率设置为0.01.

train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

初始化我们创建的所有变量，训练模型（循环1000次），在每个循环中会随机抓取数据中的100个批处理数据点，用这些点替换之前定义的占位符运行train_step

init = tf.initialize_all_variables()

sess = tf.Session()
sess.run(init)
for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict ={x:batch_xs,y_:batch_ys})

评估模型：交叉验证
TensorFlow中的argmax函数给出一个张量中最大值所在的索引值，我们可以用这个函数判断我们的模型预测的类别标签值，判断与真实值是否一样即可。结果转化为浮点型。

correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
print (sess.run(accuracy,feed_dict={x:mnist.test.images, y_:mnist.test.labels}))

输出如下：（如果是第一次运行还会出现下载的信息）

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
0.9146