图像分类与基础视觉模型
1.什么是图像分类
1.1 任务目标
- 数学表示
- 任务的难点
- 机器学习方法
- 收集数据
- 定义模型
- 训练
- 预测
- 机器学习善于处理低维、分布简单的数据,对于图像这类几十万维的空间缠绕的复杂分布数据力不从心
- ImageNet–特征工程的天花板
- 层次化特征的实现方式
- 卷积
- 多头注意力 Transformer
- AlexNet的诞生 深度学习时代的开始
2.卷积神经网络
2.1 卷积神经网络的发展
- AlexNet->VGGNet->GoogLeNet
- 精度退化问题
2.2 残差学习的基本思路
- 残差网络 ResNet
- 残差网络中的两种模块
- Basic Block
- Bottleneck Block
- ResNet的成就和影响力
- ResNet是深浅模型的集成
- 残差链接让损失曲面更平滑
- ResNet的后续改进
3.更强的图像分类模型
- 神经结构搜索Neural Architecture Search
- Vision Transformers
- ConvNeXt
4.轻量化卷积神经网络
4.1 卷积的参数量
4.2 卷积的计算量
4.3 降低模型参数量和计算量的方法
- 降低通道数C’和C---------ResNet
- 减小卷积核的尺寸K------GoogLeNet
- 可分离卷积-----将常规卷积分解为逐层卷积和逐点卷积------MobileNet
- 分组卷积—ResNeXt
5.Vision Transformers
5.1 注意力机制 Attention Mechanism
5.2 实现Attention
5.3 多头注意力 Multi-head(Self-)Attention
5.4 Vision Transformer
6.模型学习
6.1 模型的学习范式
- 监督学习
-
交叉熵损失
-
优化目标&随机梯度下降
-
权重初始化
-
学习率 退火 升温
6.2 模型增强
将图像副本用于训练,扩充训练数据集
6.3 自监督学习
- 基于代理任务
- 基于对比学习
- 基于掩码学习
7.MMClassification介绍
7.1 Python推理API
7.2 环境搭建
7.3 配置文件
7.4 预训练模型库
https://mmclassification.readthedocs.io/en/latest/modelzoo_statistics.html