TensorFlow实现卷积神经网络

最新推荐文章于 2020-06-19 17:12:16 发布

人大神成长记2

最新推荐文章于 2020-06-19 17:12:16 发布

阅读量680

点赞数 1

分类专栏：机器学习/深度学习

本文链接：https://blog.csdn.net/weixin_43330388/article/details/88073648

版权

机器学习/深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

必备知识详解

一个卷积神经网络主要由以下5种结构组成：
1. 输入层。输入层是整个神经网络的输入，在处理图像的卷积神经网络中，它一般代表了一张图片的像素矩阵。比如在下图中，最左侧的三维矩阵就可以代表张图片。其种三维矩阵长和宽代表了图像的大小，而三维矩阵的深度代表了图像的色彩通道（channel ）。比如黑白图片的深度为1，而RGB 彩模式下，图像的深度为3。从输入层开始，卷积神经网络通过不同的神经网络结构将上一层的三维矩阵转化为下一层的三维矩阵，直到最后的全连接层。在这里插入图片描述
2. 卷积层。从名字就可以看出，卷积层是卷积神经网络中最为重要的部分。和传统全连接层不同，卷积层中每一个节点的输入只是上一层神经网络的一小块，这个小块常用的大小有3x3或者5x5 。卷积层试图将神经网络中的每小块进行加深入地分析从而得到抽象程度更高的特征。一般来说，通过卷积层处理过的节点矩阵会变得更深，所以在上图中可以看到经过卷积层之后的节点矩阵的深度会增加。
　 卷积计算：对应相乘再相加，下图只计算了第一个值和最后一个值。
在这里插入图片描述
　　按照我们上面讲的图片卷积，如果原始图片尺寸为n x n，filter尺寸为f x f，则卷积后的图片尺寸为 (n-f+1) x (n-f+1)，注意f一般为奇数。这样会带来两个问题：
　　　　　　　　　　　　1.卷积运算后，输出图片尺寸缩小
　　　　　　　　　　　　2. 原始图片边缘信息对输出贡献得少，输出图片丢失边缘信息　　
padding: 为了解决图片缩小的问题，可以使用padding方法，即把原始图片尺寸进行扩展，扩展区域补零，用p来表示每个方向扩展的宽度。
在这里插入图片描述
　　经过padding之后，原始图片尺寸为 (n+2p) x (n+2p)，filter尺寸为 f x f，则卷积后的图片尺寸为 (n+2p-f+1) x (n+2p-f+1)。若要保证卷积前后图片尺寸不变，则p应满足：

　　没有padding操作，p=0，我们称之为　“Valid convolutions”；有padding操作，p=(f−1)/2，我们称之为　“Same convolutions”。

Stride:表示filter在原图片中水平方向和垂直方向每次的步进长度。之前我们默认stride=1。若stride=2，则表示filter每次步进长度为2，即隔一点移动一次。
在这里插入图片描述
　　我们用s表示stride长度，p表示padding长度，如果原始图片尺寸为n x n，filter尺寸为f x f，则卷积后的图片尺寸为：

　　下面我们用图片直观理解一下卷积：
　　对于3通道的RGB图片，其对应的滤波器算子同样也是3通道的。例如一个图片是6 x 6 x 3，分别表示图片的高度（height）、宽度（weight）和通道（#channel）。
　　3通道图片的卷积运算与单通道图片的卷积运算基本一致。过程是将每个单通道（R，G，B）与对应的filter进行卷积运算求和，然后再将3通道的和相加，得到输出图片的一个像素值。
在这里插入图片描述
　　为了进行多个卷积运算，实现更多边缘检测，可以增加更多的滤波器组。例如设置第一个滤波器组实现垂直边缘检测，第二个滤波器组实现水平边缘检测。这样，不同滤波器组卷积得到不同的输出，个数由滤波器组决定。
在这里插入图片描述
　　若输入图片的尺寸为　n x n x nc，filter尺寸为f x f x nc，则卷积后的图片尺寸为　(n-f+1) x (n-f+1) x nc′。其中，nc为图片通道数目，nc′为滤波器组个数。
卷积神经网络的单层结构如下所示：

　　相比之前的卷积过程，CNN的单层结构多了激活函数ReLU和偏移量b。
在这里插入图片描述

3. 池化层（ Pooling )。池化层神经网络不会改变三维矩阵的深度，但是它可以缩小矩阵的大小。池化操作可以认为是将一张分辨率较高的图片转化为分辨率较低的图片。通过池化层，可以进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的。

max pooling：没有卷积运算，仅仅在滤波器算子滑动区域内取最大值。Max pooling的好处是只保留区域内的最大值（特征），忽略其它值，降低noise影响，提高模型健壮性。而且，max pooling需要的超参数仅为滤波器尺寸f和滤波器步进长度s，没有其他参数需要模型训练得到，计算量很小，计算如图：

在这里插入图片描述
average pooling：就是在滤波器算子滑动区域计算平均值，如图：

4. 全连接层。在经过多轮卷积层和池化层的处理之后，在卷积神经网络的最后般会是由1到2个全连接层来给出最后的分类结果。经过几轮卷积层和池化层的处理之后，可以认为图像中的信息已经被抽象成了信息含量更高的特征我们可以将卷积层和池化层看成自动图像特征提取的过程在特征提取完成之后，仍然需要使用全连接层来完成分类任务。
5. Softmax 层。主要用于分类问题。通过 Softmax,可以得到当前样例属于不同种类的概率分布情况。

完整代码见下：

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)# 读取图片数据集
sess = tf.InteractiveSession()# 创建session
# 一，函数声明部分
 
def weight_variable(shape):
	# 正态分布，标准差为0.1，默认最大为1，最小为-1，均值为0
    	initial = tf.truncated_normal(shape, stddev=0.1)
    	return tf.Variable(initial)
def bias_variable(shape):
	# 创建一个结构为shape矩阵也可以说是数组shape声明其行列，初始化所有值为0.1
    	initial = tf.constant(0.1, shape=shape)
    	return tf.Variable(initial)
def conv2d(x, W):  
	# 卷积遍历各方向步数为1，SAME：边缘外自动补0，遍历相乘
  	return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')  
def max_pool_2x2(x):  
	# 池化卷积结果（conv2d）池化层采用kernel大小为2*2，步数也为2，周围补0，取最大值。数据量缩小了4倍
  	return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1], padding='SAME')  
 
 # 二，定义输入输出结构
 
# 声明一个占位符，None表示输入图片的数量不定，28*28图片分辨率
xs = tf.placeholder(tf.float32, [None, 28*28]) 
# 类别是0-9总共10个类别，对应输出分类结果
ys = tf.placeholder(tf.float32, [None, 10]) 
keep_prob = tf.placeholder(tf.float32)
# x_image又把xs reshape成了28*28*1的形状，因为是灰色图片，所以通道是1.作为训练时的input，-1代表图片数量不定
x_image = tf.reshape(xs, [-1, 28, 28, 1]) 
 
 
 # 三，搭建网络,定义算法公式，也就是forward时的计算
 
    ## 第一层卷积操作 ##
# 第一二参数值得卷积核尺寸大小，即patch，第三个参数是图像通道数，第四个参数是卷积核的数目，代表会出现多少个卷积特征图像;
W_conv1 = weight_variable([5, 5, 1, 32]) 
# 对于每一个卷积核都有一个对应的偏置量。
b_conv1 = bias_variable([32])  
# 图片乘以卷积核，并加上偏执量，卷积结果28x28x32
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)  
# 池化结果14x14x32 卷积结果乘以池化卷积核
h_pool1 = max_pool_2x2(h_conv1) 
 
    ## 第二层卷积操作 ##   
# 32通道卷积，卷积出64个特征  
w_conv2 = weight_variable([5,5,32,64]) 
# 64个偏执数据
b_conv2  = bias_variable([64]) 
# 注意h_pool1是上一层的池化结果，#卷积结果14x14x64
h_conv2 = tf.nn.relu(conv2d(h_pool1,w_conv2)+b_conv2)  
# 池化结果7x7x64
h_pool2 = max_pool_2x2(h_conv2)  
# 原图像尺寸28*28，第一轮图像缩小为14*14，共有32张，第二轮后图像缩小为7*7，共有64张  
 
    ## 第三层全连接操作 ##
# 二维张量，第一个参数7*7*64的patch，也可以认为是只有一行7*7*64个数据的卷积，第二个参数代表卷积个数共1024个
W_fc1 = weight_variable([7*7*64, 1024]) 
# 1024个偏执数据
b_fc1 = bias_variable([1024]) 
# 将第二层卷积池化结果reshape成只有一行7*7*64个数据# [n_samples, 7, 7, 64] ->> [n_samples, 7*7*64]
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64]) 
# 卷积操作，结果是1*1*1024，单行乘以单列等于1*1矩阵，matmul实现最基本的矩阵相乘，不同于tf.nn.conv2d的遍历相乘，自动认为是前行向量后列向量
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1) 
 
# dropout操作，减少过拟合，其实就是降低上一层某些输入的权重scale，甚至置为0，升高某些输入的权值，甚至置为2，防止评测曲线出现震荡，个人觉得样本较少时很必要
# 使用占位符，由dropout自动确定scale，也可以自定义，比如0.5，根据tensorflow文档可知，程序中真实使用的值为1/0.5=2，也就是某些输入乘以2，同时某些输入乘以0
keep_prob = tf.placeholder(tf.float32) 
h_fc1_drop = tf.nn.dropout(h_fc1,keep_prob) #对卷积结果执行dropout操作
 
    ## 第四层输出操作 ##
# 二维张量，1*1024矩阵卷积，共10个卷积，对应我们开始的ys长度为10
W_fc2 = weight_variable([1024, 10])  
b_fc2 = bias_variable([10])  
# 最后的分类，结果为1*1*10 softmax和sigmoid都是基于logistic分类算法，一个是多分类一个是二分类
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2) 
 
 # 四，定义loss(最小误差概率)，选定优化优化loss，
cross_entropy = -tf.reduce_sum(ys * tf.log(y_conv)) # 定义交叉熵为loss函数  
train_step=tf.train.GradientDescentOptimizer(0.0001).minimize(cross_entropy)  # 调用优化器优化，其实就是通过喂数据争取cross_entropy最小化  
 # 五，开始数据训练以及评测
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(ys,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

tf.global_variables_initializer().run()
for i in range(20000):
  	batch = mnist.train.next_batch(50)
  	if i%100 == 0:
    		train_accuracy = accuracy.eval(feed_dict={xs:batch[0], ys: batch[1], keep_prob: 1.0})
    		print("step %d, training accuracy %g"%(i, train_accuracy))
  	train_step.run(feed_dict={xs: batch[0], ys: batch[1], keep_prob: 0.5})
print("test accuracy %g"%accuracy.eval(feed_dict={xs: mnist.test.images, ys: mnist.test.labels, keep_prob: 1.0}))

结果不错：
在这里插入图片描述