基于各种网络的模型结构图,简单对比了经典卷积神经网络的各自优点。
CNN
AlexNet
相比于CNN的改进:
(1)激活函数选择了ReLu
补充:相比于Sigmoid来说,ReLu能有有效防止过拟合,计算量小。
(2)池化层重叠
(3)Dropout
补充:将概率小于0.5的每个隐层神经元的输出设为0,这些神经元不再进行前向传播并且不参与反向传播。
(4)网络层数的增加
网络层数的增加能够更好提取特征。
ZFNet
ZFNet没有对AlexNet网络的结构做大幅度的改动,它的主要贡献在于通过反卷积可视化特征图,用可视化的结果改进模型。
VGG
相比于AlexNet的改进:
(1)更小的卷积核和池化核
补充:VGG堆叠多个33的卷积核来替代大的卷积核,以减少所需参数;VGG全部用22的卷积核实现池化。
(2)网络层数增加
(3)去除LRN层
补充:LRN(Local Response Normalization,局部响应归一化)层作用不明显,之后的卷积神经网络也很少用到LRN层。
GoogleNet
Inception结构:融合不同尺度的特征信息
补充:引入 1*1 的卷积核,使得特征矩阵的深度降低,极大的减少了参数,进而减少了计算量。
ResNet
相比于之前的卷积神经网络:
(1)Batch Normalization
补充:解决梯度消失或梯度爆炸问题,对输入数据进行预处理,使特征图满足均值为0,方差为1的分布规律。
(2)Residual结构(残差结构)
补充:简单来说,就是将卷积之后得到的特征图与卷积之前的特征图相加,这要求两个特征矩阵维度一致。(如果不一致,就如右图将卷积之前的特征图用1*1的卷积核保证维度相同)。
(3)大幅度增加了网络的深度(达到了1000层)
补充:由于BN和Residual的提出极大缓解了卷积神经网络梯度爆炸和梯度消失的问题,让ResNet的层数大大增加,能够更好地提取特征,对于目标检测和图像分割等领域有极大的意义。