1.LeNet介绍:
LeNet是最早的经典卷积网络。在手写数字识别方面达到了惊人的效果,推动了手写数字识别的商用化。在LeNet推出的年代,多层感知机的概念已经不陌生,但是由于多层感知机的稠密链接造成参数数量过大,并没有在图像领域得到很好的应用。卷积神经网络是NN通向2d领域的钥匙,这把钥匙在后来逐渐演化为最强的特征提取器。
a.用于手写数字识别,输入为一维的灰度图像,输入图像维度为。
2.LeNet结构:
第一层(C1):卷积层。卷积核大小为,共使用了6个filter,step为1。在卷积时没有使用padding(文章中有提到的输入实际上比常用的的输入要大,可以认为是在输入的时候就已经padding过了)。所以卷积得到的feature map维度为。第一层可训练参数为,其中5*5表示是filter的大小,+1是加上了bias,*6表示有6个filter。
第二层(S2):池化层。采用的是2*2的池化,池化过程类似与平均池化。池化时把2*2区域求和然后乘上一个可训练系数,在加上bias,最后通过sigmoid,进行非线性化。池化没有overlap,所以可以认为step为2。池化后输出的feature map大小为14*14*6。可训练参数为2*6 = 12,2是每个池化过程包含了一个可训练系数和一个bias。
第三层(C3):卷积层。卷积核大小为5*5,共使用了16个filter,step为1。输入为第二层输出的feature map的多维组合,组合方法如下:
这种组合相比于所有featuremap都投入的优点在于:
1.减少了链接数量。
2.强制打破了网络的称性,不同的filter被喂入不同的输入,有助于训练出提取互补特征的filter。
参数数量:25*3*6(6个5*5的卷积核分别计算3个feature map)+25*4*9+25*6*1+16=1516
第四层(S4) :池化层。2*3的池化面积,与S2类似。输出feature map大小为5*5*16,参数数量为:2*16=32个。
第五层(C5):卷积层。卷积核大小为5*5,输出feature map大小为1*1*120,参数数量为:(16*5*5+1)*120 = 48120
第六层(F6):全链接层。采用的激活函数为tanh,使用了84个神经元,共有参数(120 + 1)*84=10164
输出层:10个神经元。采用RBF函数。输出的值越小,说明是某个类别的可能性越大。
logss function
MSE
3.LetNet特点:
a.卷积神经网络的开山之作,利用神经网络抽取的到的特征替代人类手工特征,为后续神经网络在图像领域的发展奠定了基础。
b.提出了池化结构,在后续的CNN相关网络中普遍使用。