CNN(卷积神经网络)更适合计算机视觉领域。下面总结从1998年至今的优秀CNN模型,包括LeNet、AlexNet、ZFNet、VGG、GoogLeNet、ResNet、DenseNet、SENet、SqueezeNet、MobileNet。
LeNet
LeNet是一种经典的卷积神经网络(CNN)架构,最初由Yann LeCun等人在1989年提出,并在1998年的论文《Gradient-Based Learning Applied to Document Recognition》中详细描述。
LeNet的主要特点
网络架构:
LeNet的网络结构相对简单,通常包括多个卷积层、池化层(也称为下采样层)和全连接层。
卷积层通过卷积操作提取输入图像的特征,生成特征图(feature maps)。
池化层用于降低特征图的空间尺寸,减少计算量和参数数量,同时保持重要特征。
全连接层将特征图转换为一维向量,并通过分类器输出最终的预测结果。
LeNet的网络结构示例
以LeNet-5为例, 其网络结构通常包括以下几个部分:
输入层: 接收原始图像数据,通常为灰度图像,大小为32x32像素。
卷积层C1: 使用6个5x5的卷积核进行卷积操作,生成6个特征图,大小为28x28像素(考虑到边界填充)。
池化层S2: 对C1层的特征图进行下采样,通常使用2x2的窗口和步长为2的平均池化或最大池化,生成6个14x14的特征图。
卷积层C3: 使用更多的卷积核(如16个)进行卷积操作,生成16个特征图,大小可能因具体实现而异。
池化层S4: 对C3层的特征图进行下采样,生成更小的特征图。
全连接层: 将S4层的特征图展平为一维向量,并通过多个全连接层进行分类。
输出层: 使用softmax激活函数输出类别概率,并选择概率最大的类别作为最终预测结果。