基本图像分类与目标检测网络要点总结

最新推荐文章于 2024-07-19 15:15:22 发布

lx_xin

最新推荐文章于 2024-07-19 15:15:22 发布

阅读量7.7k

点赞数 5

分类专栏：深度学习相关文章标签：网络结构

本文链接：https://blog.csdn.net/lx_xin/article/details/82834403

版权

本文总结了图像分类与目标检测的关键网络结构，包括AlexNet、VGG、GoogLeNet、ResNet等图像分类网络，以及R-CNN、Faster R-CNN、YOLO系列的目标检测网络，探讨了它们的创新点和优化策略，是理解深度学习在计算机视觉应用的重要参考资料。

摘要由CSDN通过智能技术生成

图像分类

AlexNet（2012）

是深度学习在计算机视觉领域的影响力较大的论文，获得了2012年ImageNet冠军。
深度为7层，基本结构如下图。准确率达到57.1%，top 1-5 达到80.2%。
使用ReLU，计算简便，缓解Sigmoid中梯度消失的问题。但当学习率较大时易出现dead神经元（落入负半区则永远无法激活），因此学习率设置不能过大。或者可以使用Leaky ReLU替代。
使用LRN，对输出的参数进行归一化。此方法在后续的网络中被认为效果不明显，因此基本弃用。
使用dropout，在全连接层随机使用一般的神经元，属于正则化方法。在使用BN层后可以去掉。
数据增强（Data Argument），使用随机裁剪（256中取224），水平翻转，颜色增强等方法，增加样本数量，减少过拟合。
训练：batch size=128，SGD+momentum方法，learning rate=0.01，weight_decay=0.0005，momentum=0.9。使用0均值、方差为0.01的高斯分布初始化卷积核权值，偏置项为1保证网络输入为正。
预测：输入大小固定为224224，使用256256的四角加中心与其水平翻转共10张图片求平均结果。

VGG （2014）

16-19层网络。重点阐述了深度对于网络效果的影响，后续常作为特征提取基础网络用于其他网络结构。
使用多个小卷积核代替大卷积核，如两个33卷积核的感受野相当于55卷积核。优势包括a）增加网络深度，引入更多非线性层（ReLU）提高网络判别性；b）减少参数数量，减少过拟合。
基本网络结构如下图
训练：batch size=256，SGD+momentum方法，learning rate=0.01，weight_decay=0.0005，momentum=0.9。前两个FC层使用dropout为0.5。初始化权重取样于高斯分布N（0，0.01），偏置项初始化为0。裁剪图片时，原始图片的最小边如果过小相当于覆盖了整个图片，失去了裁剪的意义。但也不宜过大，否则得到的图片只含有目标的一小部分，影响判断。
使用如下方法：
(1) 固定最小遍的尺寸为256
(2) 随机从[256,512]的确定范围内进行抽样，这样原始图片尺寸不一，有利于训练，这个方法叫做尺度抖动scale jittering，有利于训练集增强。
实验证明尺度抖动scale jittering效果较好。
预测：输入大小不固定，且不需要裁剪。将网络最后三层FC层转换为卷积层，第一层转换为
7x7卷积核大小（当输入为224时最后一层的feature map大小），后两层为1x1卷积核，论文称之为dense evaluation。这让全连接层应用到整个未裁剪的整个原始图像上，得到一个不同位置的得分图，取其中最大者作为最后分类结果。

GoogLeNet（2014）

22层网络。基本结构如下图。
-
核心思想为Inception，基本结构如下图。主要特点有两个，一是用1x1卷积升降维，二是用不同大小的卷积核提取特征后合并。

1x1卷积核作用a）增加网络深度和非线性；b）降低特征维度，减少计算复杂性。
多尺度卷积核融合作用a）不同大小的卷积核可以提取不同大小的特征，使特征更丰富；b）利用稀疏矩阵分解为密集矩阵的特点加快收敛速度。
去掉了FC层，替换为Global Average Pooling（GAP）层。具体方法就是对每一个feature上的所有点做平均，有n个feature就输出n个平均值作为最后的softmax的输入。好处a）对数据在整个feature上作正则化，防止了过拟合；b）不再需要全连接层，减少了整个结构参数的数目（一般全连接层是整个结构中参数最多的层），过拟合的可能性降低；c）不用再关注输入图像的尺寸。相当于将图片的不同部分裁剪结果做平均。
在某些层级上加了分支分类器，输出的loss乘以个系数再加到总的loss上，作者认为可以防止梯度消失问题。但实际作用较小。
注意网络中使用了LRN结构。
训练：
参考资料：深入理解GoogLeNet结构