图像分类简介
图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉的核心,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。 图像分类在许多领域都有着广泛的应用按照被提出的时间顺序,涵盖如下卷积神经网络:
- LeNet:Yan LeCun等人于1998年第一次将卷积神经网络应用到图像分类任务上,在手写数字识别任务上取得了巨大成功。
- AlexNet:Alex Krizhevsky等人在2012年提出了AlexNet, 并应用在大尺寸图片数据集ImageNet上,获得了2012年ImageNet比赛冠军(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)。
- VGG:Simonyan和Zisserman于2014年提出了VGG网络结构,是当前最流行的卷积神经网络之一,由于其结构简单、应用性极强而深受广大研究者欢迎。
- GoogLeNet:Christian Szegedy等人在2014提出了GoogLeNet,并取得了2014年ImageNet比赛冠军。
- ResNet:Kaiming He等人在2015年提出了ResNet,通过引入残差模块加深网络层数,在ImagNet数据集上的错误率降低到3.6%,超越了人眼识别水平。ResNet的设计思想深刻地影响了后来的深度神经网络的设计。
训练过程![8fd1e99c9ed146e287e84a4de3ecc005.png](https://img-blog.csdnimg.cn/8fd1e99c9ed146e287e84a4de3ecc005.png)
模型展示
(一)AlexNet
(二)VGG&GoogLeNet
(三)ResNet
ResNet演变
(一)引入1*1卷积
(二)基于ResNet的模型改进
可分离卷积![7a25c45f0921415db29edcd3c0ab477f.png](https://img-blog.csdnimg.cn/7a25c45f0921415db29edcd3c0ab477f.png)
分组卷积 ![124bcc8cb2f9426c9380fe48ed24a6b0.png](https://img-blog.csdnimg.cn/124bcc8cb2f9426c9380fe48ed24a6b0.png)
神经网络训练全过程![be821a96ddd840b7bd6e3d1e268dbe09.png](https://img-blog.csdnimg.cn/be821a96ddd840b7bd6e3d1e268dbe09.png)
训练策略对模型的提升![323bf8403d4048f5a25fc486fec00a3e.png](https://img-blog.csdnimg.cn/323bf8403d4048f5a25fc486fec00a3e.png)
- 在未过拟合的情况下,增加训练轮数。
- 带有动量的优化器使得训练时不容易停留在鞍点。
- warmup使模型在开始训练的时候更加稳定。
- 有合适的lr前提下,进行weight-decay的调优。
- 针对问题进行loss的优化。
- 合适的数据增强可以增强模型的泛化能力。
- 增加label smoothing & ema等trick。
- amp加速训练。(富哥勿扰【手动狗头】)