本文建立一个卷积神经网络---典型的深度学习样例。例如,在这个数字识别的例子中,它就达到了高于99%的精度。通过示例代码来讲解神经网络中最重要的两个概念:卷积和池化,关于它们参数的细节超出了本书的讨论范围。但是,读者可以运行本章中的所有代码,也希望读者能从中理解卷积网络背后的整体认识。
一、卷积神经网络
卷积神经网络(CNN)是深度学习一个特殊示例,它在计算机视觉有非常重要的影响。
CNN的一个典型特性就是它们的输入基本全是图片,这可以有很高效的实现并减少需要的参数。让我们回顾一下MNIST数字识别样例:读入MNIST数据并定义placeholders后:
我们可以对输入照片数据的形状(shape)进行重建,代码如下: x_image = tf.reshape(x,[-1,28,28,1])
在这里,我们把输入的shape转换成了 4维的张量(tensor),第2、3维度对应的是照片的长度和宽度,最后一个维度是颜色通道数,本例子中是黑白照片,所以是1(彩色照片是RGB,所以是3).我们可把神经网络的输入看作是2维空间中大小为28*28的神经元:
定义卷积神经网络有两个基本概念:filters与characteristic maps。这些概念可被表述为一组特殊的神经元,稍后我们就会看到。最后要的是我们先简明介绍这两个概念对CNN的重要性。
卷积层的主要目的就是检测图像中的特征或可见特性,如边缘,线,块,颜色等等。这些是由隐藏层负责的,它们会与输入层相连接。在CNN中,输入数据并不是与隐藏层中的神经元全连接;而只是很小的包含图片像素值的局部空间相连。如下图所示:
更精确地来说,在本例子中,隐藏层的每一个神经元是与一个输入层中5*5小区域(25个神经元)相连接。我们可看成一个5*5大小的窗口在包含整个照片的输入层(28*28)上滑行。窗口滑过整层的所有神经元。对于每一位置的窗口,隐藏层中都有一个神经元来处理这部分信息。