OpenMMLab AI实战营笔记(二)-图像分类与基础视觉模型

本文探讨了图像分类任务,介绍了从AlexNet开启深度学习时代,到卷积神经网络(CNN)如ResNet的残差学习,以及轻量化模型和VisionTransformer的兴起。重点讨论了注意力机制在VisionTransformer中的应用,并提到了模型增强和自监督学习等优化方法。
摘要由CSDN通过智能技术生成

图像分类与基础视觉模型

1.什么是图像分类

1.1 任务目标

  • 数学表示
  • 任务的难点
  • 机器学习方法
    • 收集数据
    • 定义模型
    • 训练
    • 预测
    • 机器学习善于处理低维、分布简单的数据,对于图像这类几十万维的空间缠绕的复杂分布数据力不从心
    • ImageNet–特征工程的天花板
  • 层次化特征的实现方式
    • 卷积
    • 多头注意力 Transformer
  • AlexNet的诞生 深度学习时代的开始

2.卷积神经网络

2.1 卷积神经网络的发展

  • AlexNet->VGGNet->GoogLeNet
  • 精度退化问题

2.2 残差学习的基本思路

  • 残差网络 ResNet
  • 残差网络中的两种模块
    • Basic Block
    • Bottleneck Block
  • ResNet的成就和影响力
    • ResNet是深浅模型的集成
    • 残差链接让损失曲面更平滑
    • ResNet的后续改进

3.更强的图像分类模型

  • 神经结构搜索Neural Architecture Search
  • Vision Transformers
  • ConvNeXt

4.轻量化卷积神经网络

4.1 卷积的参数量

请添加图片描述

4.2 卷积的计算量

请添加图片描述

4.3 降低模型参数量和计算量的方法

  • 降低通道数C’和C---------ResNet
  • 减小卷积核的尺寸K------GoogLeNet
  • 可分离卷积-----将常规卷积分解为逐层卷积逐点卷积------MobileNet
  • 分组卷积—ResNeXt

5.Vision Transformers

5.1 注意力机制 Attention Mechanism

5.2 实现Attention

5.3 多头注意力 Multi-head(Self-)Attention

5.4 Vision Transformer

6.模型学习

6.1 模型的学习范式

  • 监督学习

请添加图片描述

  • 交叉熵损失

  • 优化目标&随机梯度下降

  • 权重初始化

  • 学习率 退火 升温

请添加图片描述

6.2 模型增强

将图像副本用于训练,扩充训练数据集

  • 组合数据增强

  • 组合图像

  • 标签平滑

    模型相关策略

    丢弃层 Dropout

    随机深度 Stochastic Depth

6.3 自监督学习

请添加图片描述

  • 基于代理任务
  • 基于对比学习
  • 基于掩码学习

7.MMClassification介绍

请添加图片描述

代码仓库

文档教程

7.1 Python推理API

7.2 环境搭建

7.3 配置文件

7.4 预训练模型库

https://mmclassification.readthedocs.io/en/latest/modelzoo_statistics.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值