卷积神经网络(Convolutional Neural Network.CNN)是-种有 监督的深度学习模型,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输人是多维图像时表现得更为明显,使图像可以直接作为网络的输人,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。卷积神经网络的结构如图9.9所示。
卷积神经网络是-个多层的神经网络,每层由多个二维平面组成.而每个平面由多个独立神经元组成。输人图像通过和3个可训练的滤波器和可加偏置进行卷积,卷积后在C1层产生3个特征映射图,然后对特征映射图中每组的4个像素再进行求和,加权值,加偏置,得到3个S2层的特征映射图。这些映射图再通过滤波得到C3层。这个层级结构再和S2一样产生S4. 最终.这些像素值被光栅化.并连接成一个向量输人到传统的神经网络,得到输出。
C层是特征提取层,每个神经元的输人与前一层的局部感受野(local reeptve felds)相连,并提取该局部的特征。S层是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。卷积神经网络中的每一个特征提取层(C层)都紧跟着一个用来求局部平均与二次提取的计算层(S层),这种特有的两次特征提取结构使网络在识别时对输人样本有较高的畸变容忍能力。
CNN的一个优势在于通过感受野和权值共享减少了神经网络需要训练的参数的个数。例如,假没有一个1000X 1000(像素)的图像,有100万个隐层神经元,如果将它们全连接(每个隐层神经元都连接图像的每一个 像素点),就有1000X 1000X 1000000=10'2 个连接,也就是1012个权值参数。图像的空间联系是局部的,就像人是通过一个局部的感受野去感受外界图像-样,每-一个神经元都不需要对全局图像进行感受,每个神经元只感受局部的图像区域,然后在更高层,将这些感受不同局部的神经元综合起来就可以得到全局的信息。这样就可以减少连接的数目,也就是减少神经网络需要训练的权值参数的个数。如图9.10(b)所示,假如局部感受野是10X10,隐层每个感受野只需要和这10X 10的局部图像相连接,所以100万个隐层神经元就只有--亿个连接,即10°个参数,是原来的1000,这样训练起来就没那么费力了。但即便如此,数量还是相当巨大的,是否还有其他方法呢?
隐含层的每一 个神经元都连接10X10的图像区域,也就是说每一个神经元存在10x10=100个连接权值参数。如果每个神经元的这100个参数是相同的,也就是说每个神经元用的是同一- 个卷积核去卷积图像,就只有100 个参数。不管隐层的神经元个数有多少,两层间的连接只需100个参数,这就是权值共享。例如,有一种滤波器,也就是一种卷积核,即提出图像的-种特征.例如某个方向的边缘。此时如果要提取不同的特征,假设有100种滤波器,每种滤波器的参数不一样,表示它提取输入图像的不同特征,例如不同的边缘。这样每种滤波器对图像进行卷积就得到对图像的不同特征的反映,称为特征映射(featuremap)。所以100种卷积核就有100个特征映射。
这100个特征映射就组成了一层神经元。每种卷积核共享100个参数,100种卷积核也就是1万个参数。图9.11(b)是不同的灰度表达不同的滤波器。
图像可以直接作为网络的输人.避免了传统识别算法中复杂的特征提取和数据重建过程。权值共享网络结构更类似于生物神经网络.降低了网络模型的复杂度,减少了权值的数量,具有良好的容错能力、并行处理能力和自学能力。卷积网络可以处理特征复杂的数据,对规则不明确的问题进行推理。卷积网络较一般神经网络在图像处理方面有 如下优点:
(1)输人图像和网络的拓扑结构能很好地吻合。
(2)特征提取和模式分类同时进行,并同时在训练中产生。
(3)权重共享可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强。