OpenMMLab AI实战营 第2课:图像分类与基础视觉模型

OpenMMLab AI实战营 第2课:图像分类与基础视觉模型

一、图像分类简介

不做赘述

二、卷积神经网络

  • AlexNet(2012)
  • Going Deeper(2012~2014)
    • VGG
      • 3x3 卷积
    • GoogLeNet
      • Inception Block
  • ResNet(2015)

三、更强的图像分类模型

四、轻量化卷积神经网络

  • 卷积的参数量和计算量

input feature X ∈ R H × W × C X \in \mathbb{R} ^ {H \times W \times C} XRH×W×C
output feature Y ∈ R H ′ × W ′ × C ′ Y \in \mathbb{R} ^ {H' \times W' \times C'} YRH×W×C
C ′ C' C C C C通道的卷积核 K ∈ R C ′ × K × K × C ′ K \in \mathbb{R} ^ {C' \times K \times K \times C'} KRC×K×K×C
C ′ C' C个偏置值 b ∈ R C ′ b \in \mathbb{R} ^ {C'} bRC

参数量:
C ′ × ( C × K × K + 1 ) = C ′ C K 2 + C ′ C' \times (C \times K \times K + 1) = C'CK^2 + C' C×(C×K×K+1)=CCK2+C
计算量:
H ′ × W ′ × C ′ × K × K × C = H ′ W ′ C ′ C K 2 H' \times W' \times C' \times K \times K \times C = H'W'C'CK^2 H×W×C×K×K×C=HWCCK2

  • 降低模型参数量和计算量

    • 降低通道数 C ′ C' C C C C(平方级别)
      • ResNet使用1x1卷积压缩通道
    • 减小卷积核 K K K(平方级别)
      • GoogLeNet使用不同大小的卷积核
  • 可分离卷积

    • 参数量: C × K × K + C × C ′ C \times K \times K + C \times C' C×K×K+C×C
    • 计算量: H ′ × W ′ × C × K × K × + C ′ × H ′ × W ′ × C = H ′ W ′ C K 2 + H ′ W ′ C ′ C H' \times W' \times C \times K \times K \times + C' \times H' \times W' \times C = H'W'CK^2 + H'W'C'C H×W×C×K×K×+C×H×W×C=HWCK2+HWCC
    • 模型
      • MobileNets V1V3(20172019)
        • V1:深度可分离卷积
        • V2:Inverted Residuals
        • V3:NAS + SE
      • ResNeXt

五、Vision Transformer

  • 注意力机制
    • 卷积
      • 权重是可学习参数,但与输入无关
      • 只能建模局部关系,远距离关系只能通过多层卷积实现
    • 注意力机制
      • 权重是输入的函数
      • 可以不局限于邻域,显示建模远距离关系
  • Attention实现
    • QKV
    • 多头注意力
  • Vision Transformer(2020)
    • 将图像切分成若干 16×16 的小块,当作一列"词向量",经多层 Transformer Encoder 变换产生特征
    • 图块之外加入额外的 token,用于 query 其他 patch 的特征并给出最后分类
    • 注意力模块基于全局感受野,复杂度为尺寸的 4 次方
  • Swin Transformer(ICCV 2021 Best Paper)
    • 分层结构
    • Split Window
    • Shifted Window Multi-Head Self-Attention

六、模型学习

  • 模型学习范式
    • 监督学习
      • 交叉熵损失
      • 优化目标
      • SGD
      • Momentum SGD
    • 自监督学习

七、学习率与优化器策略

  • 权重初始化

    • 随机初始化
      • 朴素方法:均匀分布、高斯分别
      • Xavier初始化
      • Kaiming初始化
    • 预训练权重
  • 学习率调整策略

    • Annealing
    • Warmup
    • Linear Scaling Rule
      • 针对同一训练任务,当batch size扩大到原来的k倍时,学习率也应该扩大k倍
      • 这样可以保证每个样本带来的梯度下降步长相同
  • 自适应梯度算法
    不同的参数需要不同的学习率,根据梯度的历史幅度自动调整学习率

    • Adagrad
    • Adam/AdamW
  • 正则化与权重衰减

  • 早停策略

  • 模型权重平均EMA

  • 模型权重平均SWA

八、数据增强

  • 组合数据增强
    • AutoAugment
    • RandomAugment
  • 组合图形
    • Mixup
    • CutMix
  • 标签平滑

九、模型相关策略

  • Dropout
  • Stochastic Depth

十、自监督学习

十一、MMClassification介绍

这里直接看视频讲解和PPT即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值