深度学习-卷积神经网络TensorFlow_基于tensorflow深度学习的卷积神经网络-CSDN博客

本文链接：https://blog.csdn.net/qq_34356768/article/details/106130533

深度学习-卷积神经网络TensorFlow

卷积神经网络
卷积和神经网络
卷积层
TensorFlow中卷积层的实现
池化层
TensorFlow实现池化层
TensorFlow实现简单的卷积神经网络

卷积神经网络

卷积神经网络（Convolutional Neural Networks）是近些年逐步兴起的一种人工神经网络结构，因为利用卷积神经网络在图像和语音识别方面能够给出更优预测结果，这一种技术也被广泛的传播可应用。卷积神经网络最常被应用的方面是计算机的图像识别，不过因为不断地创新, 它也被应用在视频分析，自然语言处理等等。卷积神经网络中图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。在二维图像处理上有众多优势，如网络能自行抽取图像特征包括颜色、纹理、形状及图像的拓扑结构；特别是在识别位移、缩放及其它形式扭曲不变性的应用上具有良好的鲁棒性和运算效率，对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

卷积和神经网络

卷积神经网络也是通过一层一层的节点组织起来的。和全连接神经网络一样，卷积神经网络中的每一个节点都是一个神经元。在全连接神经网络中，每相邻两层之间的节点都有边相连，于是一般会将每一层全连接层中的节点组成一列，这样方便显示链接结构。而对于卷积神经网络，相邻两层之间只有部分节点相连，为了展示每一层神经元的维度，一般会将每一层卷积层的节点组织成一个三维矩阵，如图全连接神经网络与卷积神经网络结构示意图。
在这里插入图片描述
卷积神经网络的输入层就是图像的原始像素，而输出层中的每一个节点代表了不同类别的可信度。这和全连接神经网络的输入和输出是一致的。使用全连接神经网络处理图像的最大问题在于全连接的参数太多。例如一张黑白的 28×28 的手写数字图片，输入层的神经元就有784个，如下图所。

在这里插入图片描述
若在中间只使用一层隐藏层，参数 w就有 78415=11760多个；若输入的是带有颜色的RGB格式的手写数字图片，输入神经元就有2828*3=2352个。容易看出使用全连接神经网络处理图像需要训练的参数过多，参数的增多除了导致计算速度减慢，还容易导致过拟合问题。所以需要一个更合理的神经网络结构来有效减少神经网络中参数的个数，卷积神经网络就可以达到这个目的。
如图是一种用于分类的卷积神经网络架构图。

在这里插入图片描述
从图中可以看出卷积神经网络前几层中每一个节点只和上一层中部分的节点相连。一个卷积神经网络主要由以下5种结构组成：

1、输入层。输入层是整个神经网络的输入，在处理图像的卷积神经网络中，它一般代表了一张图片的像素矩阵。其中三维矩阵的长和宽代表了图像的大小，三维矩阵的深度代表了图像的色彩通道。比如黑白图片的深度为1，而在RGB色彩模式下，图像的深度为3。从输入层开始，卷积神经网络通过不同的神经网络结构将上一层的三维矩阵转化为下一层的三维矩阵，直到最后的全连接层。

2、卷积层。卷积层是一个卷积神经网络中最为重要的部分。和传统全连接层不同，卷积层中每一个节点的输入只是上一层神经网络的一小块，这个小块常用的大小有33或者55。卷积层试图将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征。一般来说，通过卷积层处理过的节点矩阵会变得更深。

3、池化层。池化层神经网络不会改变三维矩阵的深度，但是它可以缩小矩阵的大小。池化操作可以认为是将一张分辨率较高的图片转化为分辨率较低的图片。通过池化层，可以进一步缩小最后全连接层中节点的个数，从而减少整个神经网络中的参数。

4、全连接层。在经过多轮卷积层和池化层的处理之后，在卷积神经网络的最后一般会由1到2个全连接层来给出最后的分类结果。经过几轮卷积层和池化层的处理之后，可以认为图像中的信息已经被抽象成了信息含量更高的特征。可以将卷积层和池化层看成自动提取图像特征的过程。在特征提取完成之后，仍需要使用全连接层来完成分类任务。

5、Softmax层。Softmax层主要用于分类问题，通过Softmax层可以得到当前样例属于不同种类的概率分布情况。

卷积层

在卷积层中通过过滤器（filter）将当前层神经网络上的一个子节点矩阵转化为下一层神经网络上的一个单位节点矩阵。单位节点矩阵指的是一个长和宽都为一，但是深度不限的节点矩阵。

过滤器所处理的节点矩阵的长和宽都是由人工指定的，这个节点矩阵的尺寸也被称之为过滤器的尺寸。常用的过滤器尺寸有33或55。.因为过滤器处理的矩阵深度和当前层神经网络节点矩阵的深度是一致的，所以虽然节点矩阵是三维的，但是过滤器的尺寸只需指定两个维度。过滤器中另一个需要人工指定的设置是处理得到的单位节点矩阵的深度，称为过滤器的深度。
在这里插入图片描述
卷积层结构的向前传播过程就是通过将一个过滤器从神经网络当前层的左上角移动到右下角，并且在移动中计算每一个子节点矩阵对应的单位矩阵。

在这里插入图片描述
上图展示了卷积层结构向前传播的过程，在33矩阵上使用22过滤器的卷积计算。在这个过程中，过滤器每移动一次，就可以计算得到一个值（当深度为k时会计算出k个值）。这些数值拼接成一个新矩阵，就完成了卷积层向前传递的过程。图中右侧显示了过滤器在移动过程中计算得到的结果与新矩阵中节点的对应关系。

当前层矩阵大小为33时，通过卷积层后得到的矩阵大小为22。为了避免尺寸的变化，可以在当前层矩阵的边界上加入全0填充。这样可以使通过卷积层后得到的矩阵大小和当前层矩阵保持一致。下图显示了使用全0填充后卷积层向前传递的过程，可以看到加入一层全0填充后，得到的矩阵大小变为3*3.

在这里插入图片描述
除了使用全0填充，还可以通过设置过滤器步长来调整结果矩阵大小，下图显示了步长为2时使用全零填充后的卷积传播过程。

在这里插入图片描述
当长和宽的步长均为2时，过滤器每隔2步计算一次结果，所以得到的结果矩阵的长和宽只有原来的一半。以下公式给出了使用全0填充后结果矩阵的大小。

在这里插入图片描述
其中输出矩阵的长度等于输入矩阵的长度除以长度方向上的步长的向上取整。同理，输出层的宽度等于输入矩阵的宽度除以宽度方向上的步长的向上取整。如果不使用全0填充，结果矩阵大小如下。

在这里插入图片描述
在卷积神经网络中，每一个卷积层中使用的过滤器的参数是一样的。这是卷积神经网络一个非常重要的性质。从直观上讲，共享过滤器参数可以使得图像上的内容不受位置的影响。以MNIST手写体数字识别为例，无论数字“1”出现在左上角还是右下角，图片的种类都是不变的。因为在左上角和右下角使用的过滤器参数相同，所以通过卷积层之后无论数字在图像上的那个位置，得到的结果都一样。共享卷积层中过滤器的参数可以巨幅减少神经网络上的参数。以CIFAR-10问题为例，输入层矩阵的维度是32323。假设第一层卷积层使用尺寸为55，深度为16的过滤器，那么这个卷积层的参数个数为55316+16=1216。如果使用500个隐藏节点的全连接层将有32323*500+500≈150万个参数。相比之下，卷积层的参数个数要远远小于全连接层。而且卷积层的参数个数和图片的大小无关，只和过滤器的尺寸、深度以及当前层节点深度有关，这使得卷积神经网络可以很好的扩展到更大的图像数据上。
结合过滤器的使用方法和参数共享机制，下图给出了使用全0填充，步长为2的卷积层计算流程。包括过滤器上的权重和偏置项，通过公式可以得到每一个取值。下面是左上角格子取值的计算过程。

在这里插入图片描述

TensorFlow中卷积层的实现

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : Laochen
import tensorflow as tf

#通过tf.get_variable创建过滤器的权重变量和偏置项变量。
#参数变量是一个四维矩阵，前两个维度代表过滤器的尺寸，第三个维度表示当前层的深度，第四个维度表示过滤器的深度。
filter_weight = tf.get_variable('weights', [5, 5, 3, 16], initializer = tf.truncated_normal_initializer(stddev=0.1))
#共有下一层深度个不同的偏置项，即过滤器的深度，这里是16。
biases = tf.get_variable('biases', [16], initializer = tf.constant_initializer(0.1))

#TensorFlow中tf.nn.conv2d提供了非常方便实现卷积层的方法。
# 这个函数的第一个输入为当前层的节点矩阵（这是一个四维矩阵，第一个维度表示输入的batch,后面三个维度表示一个节点矩阵。
# 比如input[0,:,:,:]表示第一张图片，input[1,:,:,:]表示第二张图片，以此类推）。
#tf.nn.conv2d的第二个参数提供了卷积层的权重。
#tf.nn.conv2d的第三个参数提供了不同维度上的步长，虽然这是一个4维数组，但是第一维和最后一维的数字一定是1。这里长宽方向上的步长都是1。
#tf.nn.conv2d的第四个参数提供了填充的方法，TensorFlow中有SAME和VALID两种选择。其中“SAME”表示加全0填充，“VALID”表示不添加填充。
conv = tf.nn.conv2d(input, filter_weight, strides=[1,1,1,1],padding='SAME')

#tf.nn.bias_add提供了一个方便的函数加入偏置项。
bias = tf.nn.bias_add(conv,biases)

#将计算结果通过ReLU激活函数完成去线性化。
actived_conv = tf.nn.relu(bias)

池化层

池化层可以有效减小矩阵尺寸，以减少最后全连接层中的参数。使用池化层即可以加快计算速度又可以防止过拟合。也有研究指出池化层对模型的效果不大，不过目前主流的卷积神经网络模型中都含有池化层。

和卷积层类似，池化层向前传播的过程也是移动一个过滤器。不过池化层的过滤器不是计算加权和，而是计算最大值或者平均值。使用最大值操作的池化层被称为最大池化层（max pooling），这是使用最多的池化层结构。使用平均值操作的池化层被称为平均池化层（average pooling）。

池化层的过滤器也需要设定过滤器的尺寸、是否使用填充以及过滤器的步长。卷积层和池化层中过滤器移动的方式是相似的，区别在于卷积层使用的过滤器是横跨整个深度的，而池化层使用的过滤器只影响一个深度上的节点。所以池化层的过滤器除了在长和宽两个维度上移动，还需要在深度上移动。
下图展示了一个最大池化层向前传播的计算过程。

在这里插入图片描述

TensorFlow实现池化层

#tf.nn.max_pool实现了最大池化层向前传播过程，参数和tf.nn.conv2d类似，
#ksize提供了过滤器的尺寸，strides提供了过滤器步长，padding决定是否使用全0填充。
pool = tf.nn.max_pool(actived_conv,ksize=[1,3,3,1],strides=[1,2,2,1],
padding='SAME')

实际中使用最多的池化层过滤器尺寸为[1,2,2,1]或者[1,3,3,1]。TensorFlow还提供了tf.nn.avg_pool来实现平均池化层。tf.nn.avg_pool函数的调用格式和tf.nn.max_pool函数一样。

TensorFlow实现简单的卷积神经网络

MNIST手写体数字识别数据集被TensorFlow封装，经常作为深度学习的入门样例。在MNIST数据集中每一张图片代表了0~9中的一个数字，图片的大小都是28*28。
下面代码构建了一个简单的卷积神经网络，由卷积层1+池化层1+卷积层2+池化层2+全连接层构成。在MNIST数据集上可以达到99.2%左右的准确率。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/9/13 10:29
# @Author  : Laochen

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf

mnist = input_data.read_data_sets("MNIST_data/",one_hot=True)
sess = tf.InteractiveSession()

#给权重制造随机噪声来打破完全对称，截断的正态分布噪声，给偏置增加小的正值避免死亡节点

def weight_variable(shape):
    initial = tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(initial)

def bias_variable(shape):
    initial = tf.constant(0.1,shape=shape)
    return tf.Variable(initial)

#卷积层、池化层tf.nn.conv2d是tensorflow中的２维卷积函数，
# tf.nn.max_pool是最大池化函数，这里使用２＊２的最大池化，即将一个２＊２像素块降为１＊１，

def conv2d(x,W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

def max_pool_2x2(x):

    return tf.nn.max_pool(x, ksize=[1,2,2,1],strides=[1,2,2,1],
                          padding='SAME')


#输入的placeholder，ｘ是特征，ｙ＿是真实的ｌａｂｅｌ。１Ｄ的输入向量转化为２Ｄ即从１＊７８４转化为原始的２８＊２８，
#故最终的尺寸为［－1，２，２８，１］，前面的－１代表样本数量不固定，最后的１代表颜色通道数量 。

x = tf.placeholder(tf.float32,[None,784])
y_ = tf.placeholder(tf.float32,[None,10])
x_image = tf.reshape(x,[-1,28,28,1])

#第一组卷积层,池化层
#[5,5,1,32]代表卷积核尺寸为5*5，1个颜色通道，32个不同的卷积核。
#conv2d函数进行卷积操作，并加上偏置，接着使用ReLU激活函数进行非线性处理，
# 最后使用最大池化函数max_pool_2x2对卷积的输出结果进行池化操作
W_conv1 = weight_variable([5,5,1,32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x_image,W_conv1) + b_conv1)
h_conv1 = max_pool_2x2(h_conv1)

#第二组卷积层,池化层
#卷积核数量变为64，也就是说这一层会提取64种特征
W_conv2 = weight_variable([5,5,32,64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_conv1,W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

#前面经历了两次2*2的最大池化所以边长只有1/4了，图片尺寸由28*28变成7*7.而第二个卷积层的卷积核数量为64，其输出的tensor尺寸即为7*7*64
#使用 tf.reshape 将其转成1D的向量，然后连接一个全连接层，隐含节点1024，并使用ReLU激活函数.
W_fc1 = weight_variable([7*7*64,1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2,[-1,7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1) + b_fc1)

#为了减轻过拟合，使用Dropout层，通过一个placeholder传入keep_prob比率来控制的，在训练时随机丢弃一部分节点数据来减轻过拟合，
#预测时则保留全部数据来追求最好的预测性能 。
keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1,keep_prob)

#将Dropout层的输出连接一个Softmax层，得到最后的概率输出
W_fc2 = weight_variable([1024,10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2) + b_fc2)

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y_conv),
                                              reduction_indices=[1]))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

tf.global_variables_initializer().run()
for i in range(20000):
    batch = mnist.train.next_batch(50)
    if i%100 == 0:
        train_accuracy = accuracy.eval(feed_dict={x:batch[0],y_:batch[1],
                                                  keep_prob:1.0})
        print("step %d, training accuracy %g"%(i,train_accuracy))
    train_step.run(feed_dict={x:batch[0],y_:batch[1],keep_prob:0.5})

print("test accuracy %g"%accuracy.eval(feed_dict={
    x:mnist.test.images,y_:mnist.test.labels, keep_prob:1.0
}))