基本图像分类与目标检测网络要点总结

本文总结了图像分类与目标检测的关键网络结构,包括AlexNet、VGG、GoogLeNet、ResNet等图像分类网络,以及R-CNN、Faster R-CNN、YOLO系列的目标检测网络,探讨了它们的创新点和优化策略,是理解深度学习在计算机视觉应用的重要参考资料。
摘要由CSDN通过智能技术生成

图像分类

AlexNet(2012)

  • 是深度学习在计算机视觉领域的影响力较大的论文,获得了2012年ImageNet冠军。
  • 深度为7层,基本结构如下图。准确率达到57.1%,top 1-5 达到80.2%。
    AlexNet
  • 使用ReLU,计算简便,缓解Sigmoid中梯度消失的问题。但当学习率较大时易出现dead神经元(落入负半区则永远无法激活),因此学习率设置不能过大。或者可以使用Leaky ReLU替代。
  • 使用LRN,对输出的参数进行归一化。此方法在后续的网络中被认为效果不明显,因此基本弃用。
  • 使用dropout,在全连接层随机使用一般的神经元,属于正则化方法。在使用BN层后可以去掉。
  • 数据增强(Data Argument),使用随机裁剪(256中取224),水平翻转,颜色增强等方法,增加样本数量,减少过拟合。
  • 训练:batch size=128,SGD+momentum方法,learning rate=0.01,weight_decay=0.0005,momentum=0.9。使用0均值、方差为0.01的高斯分布初始化卷积核权值,偏置项为1保证网络输入为正。
  • 预测:输入大小固定为224224,使用256256的四角加中心与其水平翻转共10张图片求平均结果。

VGG (2014)

  • 16-19层网络。重点阐述了深度对于网络效果的影响,后续常作为特征提取基础网络用于其他网络结构。
  • 使用多个小卷积核代替大卷积核,如两个33卷积核的感受野相当于55卷积核。优势包括a)增加网络深度,引入更多非线性层(ReLU)提高网络判别性;b)减少参数数量,减少过拟合。
  • 基本网络结构如下图
    VGG
  • 训练:batch size=256,SGD+momentum方法,learning rate=0.01,weight_decay=0.0005,momentum=0.9。前两个FC层使用dropout为0.5。初始化权重取样于高斯分布N(0,0.01),偏置项初始化为0。 裁剪图片时,原始图片的最小边如果过小相当于覆盖了整个图片,失去了裁剪的意义。但也不宜过大,否则得到的图片只含有目标的一小部分,影响判断。
     使用如下方法:
    (1) 固定最小遍的尺寸为256
    (2) 随机从[256,512]的确定范围内进行抽样,这样原始图片尺寸不一,有利于训练,这个方法叫做尺度抖动scale jittering,有利于训练集增强。
    实验证明尺度抖动scale jittering效果较好。
  • 预测:输入大小不固定,且不需要裁剪。将网络最后三层FC层转换为卷积层,第一层转换为
    7x7卷积核大小(当输入为224时最后一层的feature map大小),后两层为1x1卷积核,论文称之为dense evaluation。这让全连接层应用到整个未裁剪的整个原始图像上,得到一个不同位置的得分图,取其中最大者作为最后分类结果。

GoogLeNet(2014)

  • 22层网络。基本结构如下图。
    -GoogLeNet
  • 核心思想为Inception,基本结构如下图。主要特点有两个,一是用1x1卷积升降维,二是用不同大小的卷积核提取特征后合并。
    Inception
    1x1卷积核作用a)增加网络深度和非线性;b)降低特征维度,减少计算复杂性。
    多尺度卷积核融合作用a)不同大小的卷积核可以提取不同大小的特征,使特征更丰富;b)利用稀疏矩阵分解为密集矩阵的特点加快收敛速度。
  • 去掉了FC层,替换为Global Average Pooling(GAP)层。具体方法就是对每一个feature上的所有点做平均,有n个feature就输出n个平均值作为最后的softmax的输入。好处a)对数据在整个feature上作正则化,防止了过拟合;b)不再需要全连接层,减少了整个结构参数的数目(一般全连接层是整个结构中参数最多的层),过拟合的可能性降低;c)不用再关注输入图像的尺寸。相当于将图片的不同部分裁剪结果做平均。
  • 在某些层级上加了分支分类器,输出的loss乘以个系数再加到总的loss上,作者认为可以防止梯度消失问题。但实际作用较小。
  • 注意网络中使用了LRN结构。
  • 训练:
    参考资料:深入理解GoogLeNet结构

ResNet(2015)

  • 当网络层数加深时会发生退化现象。论文提出残差网络克服这个问题。
  • 5
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值