图像分类与基础视觉模型
什么是分类?
给定一张图片,识别图像中的物体是什么。
需要机器来解决这一问题,经历了很长的时间,机器不像人一样,它只能通过构造特征,设计模型,模型训练,预测,才能够得到最大可能性的结果。
在2012年AlexNet出现以后,深度学习时代开始了,Alex将传统视觉算法的性能拉涨了一大截,在2015年,卷积伸进网络超越传统方法。
卷积神经网络
AlexNet(2012)
第一个实现大规模图像的模型,在ImageNet上达到~85%的top-5精度
实现并开源了cuda-convnet,在GPU上训练大规模神经网络工程成为可能。
VGG(2014)
将大尺寸的卷积拆解为多层3x3的卷积,提高了感受野,并且有更少的参数
GoogleNet (2014)
使用Inception模块堆叠形成,22个可学层
ResNet (2015)
提出了残差模块,影响力更大
更强的图像分类模型
1、神经网络结构搜索(2016)
借助强化学习等方法搜索最佳网络
代表: NASNet(2017) MnasNet(2018)、EfficientNet(2019) RegBet(2020)
2、vision Transformer
使用Transformer替代卷积网络实现图像分类,使用更大的数据训练,达到超越卷积网络的精度。
代表:vit, swin-Transformer
3、convNeXt(2022)
将swin-Transformer的模型元素迁移到卷积神经网络中,性能反超Transformer
轻量化卷积神经网络
考虑到使用到便捷的设备上,边缘端,嵌入式,手机等等
1、mobleNetv1/v2/v3(2017~2019)家族
V1:使用可分离卷积,只有4.2M参数
V2/V3在 V1的基础上加入了残差模块和SE模块
2、ResNeXt
分组卷积的操作,降低模型计算量
Vision Transformer
多头注意力
加窗
模型学习
监督学习
- 标注数据集
- 定义损失函数
- 解一个最优化问题
自监督学习
学习优化器的策略
权重初始化
学习率退火Annealing
学习率升温
正则化权重衰减
自适应梯度算法
模型权重平均EMA
模型权重平均
数据增强
模型相关策略
丢弃层 dropout
随机深度
总结
本节课的内容很多,我暂时没有完全消化透彻,需要再结合实际使用的过程中进行补全。通过这节课有重温了深度学习图像分类的一个发展过程,对我后续的学习科研基础有加深课一步。