经典卷积神经网络(CNN)图像分类算法详解

本文原创,转载请引用 https://blog.csdn.net/dan_teng/article/details/87192430

CNN图像分类网络

一点废话:CNN网络主要特点是使用卷积层,这其实是模拟了人的视觉神经,单个神经元只能对某种特定的图像特征产生响应,比如横向或者纵向的边缘,本身是非常简单的,但是这些简单的神经元构成一层,在层数足够多后,就可以获取足够丰富的特征。从机制上讲,卷积神经网络与人的视觉神经还真是像。下面进入正题。

LeNet(1998)

网络基本架构为:conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax,括号内数字表示channel数。这是个很小的五层网络(特指卷积或者全连接层),图中subsampling下采样是pooling layer, kernel size 是2x2, stride 2,feature map刚好为上层一半大小。该网络用于对支票(还是邮政?)的手写数字分类。网络受制于当时的硬件条件和训练数据大小,并未带来神经网络的爆发。
LeNet网络结构

AlexNet(2012)

AlexNet是2012年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)冠军,以高出10%的正确率力压第二名,这是CNN网络首次获胜,将卷积神经网络的巨大优势带入人们视野。
ILSVRC 历年top5错误率及神经网络深度(层数):
ILSVRC top5错误率及网络深度
AlexNet基本架构为:conv1 (96) -> pool1 -> conv2 (256) -> pool2 -> conv3 (384) -> conv4 (384) -> conv5 (256) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。AlexNet有着和LeNet相似网络结构,但更深、有更多参数。conv1使用11×11的滤波器、步长为4使空间大小迅速减小(227×227 -> 55×55)。

AlexNet的特点:

  • 第一次使用ReLU激活函数,有更好的梯度特性、训练更快。
  • 使用了随机失活(dropout),p=0.5,可以防止过拟合
  • 大量使用数据扩充技术
  • 使用SGD,Momentum 0.9
  • learning rate 1e-2 (0.01), reduced by 10 manually when val accuracy plateaus
  • L2 weight decay 5e-4
  • batch size 128
  • 使用Norm layers(不再使用)

由于当时GPU不够强大,网络有两个分支,放在两个GPU上分别训练,当前已经不存在这个问题了,因此也常见到只有一个分支的网络结构图。另外需说明的是,图上表的输入图片大小是224,其实应该是227,否则网络跑不通。

双分支网络结构:
AlexNet原网络单分支网络结构(当下使用这个就行)
AlexNet单分支网络结构
ILSVRC 2013冠军是ZFNet,仅在AlexNet上做了一些改进,没有突破性技术,这里不再赘述。

VGGNet

ILSVRC 2014冠军是GoogLeNet,亚军是VGG。虽然VGG网络是亚军,但是其应用更加广泛。
VGG网络作者尝试了多种结构,较常用的有VGG16和VGG19(VGG16网络更简单,性能也可以,应用最广泛)。
VGG16的基本架构为conv1^2 (64) -> pool1 -> conv2^2 (128) -> pool2 -> conv3^3 (256) -> pool3 -> conv4^3 (512) -> pool4 -> conv5^3 (512) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。 ^3代表重复3次。
VGG网络结构
VGG16内存主要消耗在前两层卷积,而参数最主要在第一层全连接中最多。这里说的内存消耗,主要是指存储各层feature map所用的空间,对第一层而言,输入是图片,占用大小就是图片长×宽×通道数,卷积后输出占用的内存就是输出尺寸乘积;参数量中参数是网络需要学习的部分,也就是卷积和全连接层的权重矩阵大小,因为网络中权重矩阵以kernel形式存在,因此参数量就是kernel的(长x宽x通道数)x个数。
VGG16内存和参数消耗tricks:由于主要参数消耗在fc6(各层命名见后图)这一层,可以替换为对上一层7x7x512的feature map 在7x7上做average pooling,得到512个数,也是可行的(Andrej Karpathy在2016 CS231n课上讲的),这点在GoogLeNet中有应用。

VGGNet特点:

  • 结构简单,只有3x3,stride 1,pad 1的卷积和2x2,stride 2的max pooling,每过一次pooling,feature map大小降低一半。
  • 参数量大(参数和内存解析见上图)
  • 合适的网络初始化
  • 使用batch normalization
  • FC7提取的特征对其他任务有帮助。FC7始于AlexNet,表示某一全连接层,该层提取特征用于分类任务。

VGG16中对各层的命名如下:
VGG16各层命名
需注意的是,VGGNet之所以使用更小的kernel,是因为3个3x3的conv和1个7x7的conv具有的感受野是相同的,但是3层3x3带来更深的网络结构,非线性更强,另外参数量更少:3*(3x3xCxC)vs 7x7xCxC (这里C是channel数,同时认为kernel数也是C,等价于输出的channel是C)

GoogLeNet

GoogLeNet是ILSVRC2014冠军,取名源自作者所处单位Google,其中L大写是为了向LeNet致敬。该网络如之前所提,使用average pooling代替了最耗参数(相应的也最耗时间)的全连接层,同时使用inception模块来代替简单的卷积层(inception的名字来源于盗梦空间中的we need to go deeper的梗);另外,使用1x1的卷积进行了降维。
inception module

ResNet

ResNet是ILSVRC 2015的冠军。ResNet最大的贡献在于解决了深层网络难以训练的问题(反向传播梯度弥散),它的网络深度达到了152层!ResNet网络结构如下图所示。
ResNet网络结构

ResNet网络之所以能够训练下去主要得益于residual block(残差模块)的使用。残差模块是一种短路连接,如下图所示。通常的“plain”结构如左侧所示,而residual网络如右侧所示,加了一条短路路径,使得前面的输入可以直接连接到输出。原本图中几层要学习的是H(x),现在由于多加了输入x的影响,网络层需要拟合的变成了F(x) = H(x) - x
residual blockResNet的特点:

  • 使用BN(Batch Normalization)layer在每个conv layer后
  • 每个residual block包含两个3x3 conv layer
  • 周期性的使用stride 2 pooling降低维度,相当于除2
  • 最耗时的FC层使用pool代替
  • SGD + Momentum 0.9
  • learning rate 0.1, divided by 10 when validation error plateaus
  • Mini-batch size 256
  • Weight decay 1e-5
  • 不使用dropout

截至2017年,典型CNN网络的准确度和复杂度:
网络复杂度

参考资料:
斯坦福CS231n 2016/2017 教学视频和课件
https://zhuanlan.zhihu.com/p/31727402

  • 33
    点赞
  • 366
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
CNN卷积神经网络)是一种经典的深度学习模型,用于图像识别、目标检测、语音识别等任务。它的设计灵感来自于生物神经系统中视觉皮层的运作机制。 CNN主要由卷积层、池化层和全连接层组成。卷积层是CNN的核心,通过卷积操作对输入特征进行提取并生成多个特征图。每个特征图由一组共享权重的卷积核对输入进行卷积运算,并经过非线性变换(如ReLU激活函数)得到高维特征表示。卷积层的参数共享和局部感受野使得网络具有平移不变性和局部特征提取能力。 池化层用于减小特征图的空间尺寸,降低计算量和参数数量,并提取特征的空间不变性。最大池化是常用的池化方式,它在每个子区域中选择最大值作为池化结果。池化操作可以减小特征图的尺寸,并保留主要特征。 全连接层在卷积和池化操作后将高维特征映射为输出结果。全连接层中的神经元与前一层的所有神经元都有连接,并通过学习参数实现特征的组合和分类。最后一层一般使用Softmax激活函数将输出映射为概率分布。 CNN的训练通常采用反向传播算法,通过调整卷积核和全连接层的权重来优化网络性能。为了防止过拟合,可以使用正则化技术如Dropout和权重衰减。同时,数据增强可以通过对训练样本进行随机变换,增加样本多样性,提高模型的泛化能力。 总的来说,CNN利用卷积和池化操作进行特征提取和空间不变性学习,并通过全连接层实现分类和回归任务。它的设计使得它在图像处理方面表现出色,是现实世界中许多视觉任务的首选模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值