图像分类
2012年Alexnet首次将视觉分类问题将代码在GPU上运行
2014年VGG将大尺度的卷积拆解为多层3×3的卷积 相同的感受野、更少的参数量、更多的层数和表达能力
2014年googlenet相比前两个,参数量较少。
2015年的Resnet 可使用1×1的卷积来缩小通道数
2016年以后 神经结构搜索:非人工设计、由算法搜索而来
2020年 vision transform 感受野是全局的,计算比较复杂
2021年 swin-transform
2020年convnext
轻量化模型:分组卷积:可分离卷积是分组卷积的特殊形式。
可分离卷积: 将常规卷积分解为逐层卷积和逐点卷积,降低参数量和计算量。如下图:Mobilenet(2017-2019)
模型学习
监督学习 交叉熵函数
自监督学习
基于梯度下降训练神经网络的整体流程如下:
训练技巧的重要性
1.权重初始化
2.学习率(学习率下降,按步长下降,按比例下降;与之相反,还有warmingup)
经验性结论:针对同一个训练任务,当batch size扩大为原来的k倍时,学习率也应扩大为原来的k倍。这样做可以保证平均每个样本带来的梯度下降步长相同。
自适应梯度算法:(Adam、AdamW ):不同的参数需要不同的学习率,根据梯度的历史幅度自动调整学习率。
3.正则化与梯度衰减
4.早停
5.模型权值平均
6.数据增强(几何变换、色彩变换 、随机遮挡)
组合数据增强:Mixup (逐像素混合图像)、CutMix(遮盖原图并用另一幅图填充)
7.标签平滑
动机:类别标注可能错误或不准确,让模型最大限度拟合标注类别,可能会有碍于泛化性
做法:引入平滑参数 𝜀,降低标签的"自信程度"
正36..则正则化与权重衰减 Weight Decay化与权重衰减 Weight Decay