图像分类与基础视觉模型
batchSize 对精度没有太大影响,但是影响收敛速度
少样本学习
模型设计
卷积神经网络
AlexNet、VGG、GoogleNet
残差学习:浅层网络、深层网络
两个残差模块:Basic block->Bottleneck block。 可以使损失曲面更平滑。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-11kidDJP-1675414736393)(https://cdn.nlark.com/yuque/0/2023/png/690791/1675412999684-c3db4ede-9308-4e92-bf54-a298800cc3ed.png#averageHue=%23faf9f9&clientId=u64b69903-0f85-4&from=paste&height=460&id=u0be4fb67&name=image.png&originHeight=690&originWidth=1438&originalType=binary&ratio=1&rotation=0&showTitle=false&size=188626&status=done&style=none&taskId=u53046e61-e28a-470a-9414-f8d26464dc4&title=&width=958.6666666666666)]
ResNet改进:
ResNet B/C/D: 残差模块的局部改进
ResNeXt:使用分组卷积,降低参数量
一些其他方向的分类模型:
- 神经结构搜索
- VIT
- ConvNeXt
轻量化卷积神经网络
降低参数量和计算量
- 降低通道数C’ C (平方级别)
- 减小卷积核的尺寸K (平方级别)
卷积的参数
卷积核 + 偏置值
参数量计算公式:
卷积的计算量
使用不同大小的卷积核:GoogleNet
并不是所有特征都需要同样大的感受野
使用1x1压缩通道数:ResNet
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FMD4XjzB-1675414736396)(https://cdn.nlark.com/yuque/0/2023/png/690791/1675413507623-c9ed1247-279f-4104-a1a4-2b05953430f0.png#averageHue=%23f9f8f8&clientId=u64b69903-0f85-4&from=paste&height=453&id=u2265b3c5&name=image.png&originHeight=680&originWidth=1192&originalType=binary&ratio=1&rotation=0&showTitle=false&size=181874&status=done&style=none&taskId=u5a1ec649-b54a-40ea-8e86-a5ef41c58af&title=&width=794.6666666666666)]
可分离卷积
将常规的卷积分解为逐层卷积和逐点卷积
Vision Transformers
注意力机制类别卷积,卷积中卷积核是固定的,注意力机制中的权重是根据数据动态计算出来的
优化:Swing Transformer
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QOTUswGH-1675414736398)(https://cdn.nlark.com/yuque/0/2023/png/690791/1675413729670-42eef16d-ea23-445a-90bd-8dd1398de3fd.png#averageHue=%23f2f0ee&clientId=u64b69903-0f85-4&from=paste&height=474&id=ufc6b53c1&name=image.png&originHeight=711&originWidth=1663&originalType=binary&ratio=1&rotation=0&showTitle=false&size=644984&status=done&style=none&taskId=ude5cf47c-2a11-4f2d-a296-e194398f1bc&title=&width=1108.6666666666667)]
模型学习
监督学习
交叉熵、优化目标、随机梯度下降–>参考Day1
自监督学习
学习率与优化器策略
权重初始化
学习率
学习率优化策略
退火Annealing
初始阶段使用较大学习率,损失函数稳定之后下降学习率
升温 warmup
前几轮学习率逐渐上升,直到预设的学习率,从而使训练初始阶段稳定
Linear Scaling Rule
结论:针对同一个训练任务,当batch size 扩大为原来的K倍时,学习率也对应扩大K倍
**直观理解:**这样做可以保证平均每个样本带来的梯度下降步长相同
实践中,假设预训练模型使用 lr=0.1,8卡数据并行训练,如果希望用1卡复现实验,lr 应设置为 0.0125
自适应梯度算法
不同的参数需要不同的学习率,根据梯度的历史幅度自动调整学习率
正则与权重衰减
早停
权重平均:EMA
模型权重平均:Stochastic Weight Averaging
数据增强
变换
组合数据增强
组合图像
标签平滑
**动机:**类别标注可能错误或不准确,让模型最大限度拟合标注类别可能会有碍于泛化性
**做法:**引入平滑参数 𝜀,降低标签的"自信程度" 引入平滑参数 𝜀,降低标签的"自信程度"