LeNet-5
1.LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取,同时使用卷积、下采样(池化)和非线性映射这样的组合结构,是当前流行的大多数深度图像识别网络的基础。结构如下:
2.LeNet-5 有7层,包括3个卷积层,2个下采样层,3个全连接层。其中下采样层和池化层类似,但是在池化过后,对输出数据还乘上权重,加上偏差,所以得到的参数量是(1+1)x6而不是零。网络配置如下:
3.C3卷积层可训练参数并未直接连接中所有的特征图(Feature Map),而是采用如图4.2所示的采样特征方式进行连接(稀疏连接),生成的16个通道特征图中分别按照相邻3个特征图、相邻4个特征图、非相邻4个特征图和全部6个特征图进行映射,得到的参数个数计算公式为,在原论文中解释了使用这种采样方式原因包含两点:限制了连接数不至于过大(当年的计算能力比较弱);强制限定不同特征图的组合可以使映射得到的特征图学习到不同的特征模式。
4.C5卷积层在图4.1中显示为全连接层,原论文中解释这里实际采用的是卷积操作,只是刚好在卷积后尺寸被压缩为,输出结果看 起来和全连接很相似。
特性:
-
卷积网络使用一个3层的序列组合:卷积、下采样(池化)、非线性映射(LeNet-5最重要的特性,奠定了目前深层卷积网络的基础)
-
使用卷积提取空间特征
-
使用映射的空间均值进行下采样
-
使用或进行非线性映射
-
多层神经网络(MLP)作为最终的分类器
-
层间的稀疏连接矩阵以避免巨大的计算开销
AlexNet
1.AlexNet使用GPU代替CPU进行运算,使得在可接受的时间范围内模型结构能够更加复杂,它的出现证明了深层卷积神经网络在复杂模型下的有效性,使CNN在计算机视觉中流行开来,直接或间接地引发了深度学习的热潮。
特性:
-
所有卷积层都使用ReLU作为非线性映射函数,使模型收敛速度更快
-
在多个GPU上进行模型的训练,不但可以提高模型的训练速度,还能提升数据的使用规模
-
使用LRN对局部的特征进行归一化,结果作为ReLU激活函数的输入能有效降低错误率
-
重叠最大池化(overlapping max pooling),即池化范围z与步长s存在关系(如中核尺度为),避免平均池化(average pooling)的平均效应
-
使用随机丢弃技术(dropout)选择性地忽略训练中的单个神经元,避免模型的过拟合
ZFNet
1.ZFNet实际上是微调(fine-tuning)了的AlexNet,并通过反卷积(Deconvolution)的方式可视化各层的输出特征图,进一步解释了卷积操作在大型网络中效果显著的原因。
特性:
ZFNet与AlexNet在结构上几乎相同,此部分虽属于模型特性,但准确地说应该是ZFNet原论文中可视化技术的贡献。
-
可视化技术揭露了激发模型中每层单独的特征图。
-
可视化技术允许观察在训练阶段特征的演变过程且诊断出模型的潜在问题。
-
可视化技术用到了多层解卷积网络,即由特征激活返回到输入像素空间。
-
可视化技术进行了分类器输出的敏感性分析,即通过阻止部分输入图像来揭示那部分对于分类是重要的。
-
可视化技术提供了一个非参数的不变性来展示来自训练集的哪一块激活哪个特征图,不仅需要裁剪输入图片,而且自上而下的投影来揭露来自每块的结构激活一个特征图。
-
可视化技术依赖于解卷积操作,即卷积操作的逆过程,将特征映射到像素上。