【OpenMMLab 2023 Course】Lecture 2

文章介绍了图像分类任务的关键技术,包括卷积神经网络(如AlexNet,VGG,GoogLeNet,ResNet)和轻量化策略,探讨了VisionTransformers模型以及其优化方法。此外,还讨论了学习率与优化器策略、数据增强技术、监督与自监督学习在模型训练中的应用。
摘要由CSDN通过智能技术生成

图像分类任务介绍

  • 受限于人类的智慧,手工设计特征更多局限在像素层面的计算,丢失信息过多,在视觉任务上的性能达到瓶颈

层次化特征的实现方式

  • 卷积 - CNN
  • 多头注意力 - Transformer

卷积神经网络

  • AlexNet
  • VGG
  • GoogLeNet
  • ResNet:残差建模,解决了精度退化问题
  • NAS相关网络
  • ViT
  • ConvNeXt

轻量化卷积神经网络

卷积的参数量计算: C ′ × ( C × K × K + 1 ) C' \times (C\times K\times K + 1) C×(C×K×K+1)
卷积乘加次数计算: H ′ × W ′ × C ′ × ( C × K × K ) H'\times W'\times C' \times (C\times K\times K) H×W×C×(C×K×K)

因此,通过降低通道数和减小卷积核的尺寸,都可以实现轻量化

  • 使用不同大小的卷积核
    • Inception:并不是所有特征都需要同样大的感受野,在同一层中混合使用不同尺寸的特征可以减少参数量
  • 使用1x1卷积压缩通道数
  • 逐层卷积和逐点卷积
  • 分组卷积

Vision Transformers

  • QKV: Multi-head Self-Attention
  • Swin Transformer: Hierarchical Transformer
    • 将 Multi-Head Self-Attention 计算限制在划分的窗口内,减少计算量
    • Shifted Windows Multi-Head Self-Attention:使信息能够跨窗口传递

模型学习

  • 监督学习
  • 自监督学习
    • 让模型在无标注数据集上学习好的特征,再把模型放在较小的标注数据集上训练分类

监督学习

学习率与优化器策略

  • 权重初始化
  • 学习率调整策略
    • 退火、升温、Linear Scaling Rule(与batch size同等缩放)
  • 正则化与权重衰减
  • Early Stopping
  • 模型权重平均EMA

数据增强

  • 组合数据增强:AutoAugment、RandAugment
  • 组合图像
  • 标签平滑:类别标注可能错误或不准确,让模型最大限度拟合标注类别可能会有碍于泛化性

模型相关策略

  • Dropout
  • 随机深度

自监督学习

基于无标注的数据学习

  • Relative Location:模型只有很好地理解到图片内容,才能够预测图像块之间的关系
  • SimCLR:如果模型能很好地提取图片内容的本质,那么无论图片经过什么样的数据增强操作,提取出来的特征都应该极为相似
  • Masked autoencoders:模型只有理解图片内容、掌握图片的上下文信息,才能恢复出图片中被随机遮挡的内容

MMClassification介绍

图像分类模型的构成

  • 图片-骨干网络-颈部(如全局平均池化)-分类头(线性全连接层+softmax)-类别概率
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值