OpenMMLab AI实战营笔记（二）-图像分类与基础视觉模型

最新推荐文章于 2024-09-12 18:02:47 发布

airwolf0992

最新推荐文章于 2024-09-12 18:02:47 发布

阅读量180

点赞数

文章标签：人工智能分类深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/airwolf0992/article/details/128870931

版权

本文探讨了图像分类任务，介绍了从AlexNet开启深度学习时代，到卷积神经网络(CNN)如ResNet的残差学习，以及轻量化模型和VisionTransformer的兴起。重点讨论了注意力机制在VisionTransformer中的应用，并提到了模型增强和自监督学习等优化方法。

摘要由CSDN通过智能技术生成

图像分类与基础视觉模型

1.什么是图像分类

1.1 任务目标

数学表示
任务的难点
机器学习方法
- 收集数据
- 定义模型
- 训练
- 预测
- 机器学习善于处理低维、分布简单的数据，对于图像这类几十万维的空间缠绕的复杂分布数据力不从心
- ImageNet–特征工程的天花板
层次化特征的实现方式
- 卷积
- 多头注意力 Transformer
AlexNet的诞生深度学习时代的开始

2.卷积神经网络

2.1 卷积神经网络的发展

AlexNet->VGGNet->GoogLeNet
精度退化问题

2.2 残差学习的基本思路

残差网络 ResNet
残差网络中的两种模块
- Basic Block
- Bottleneck Block
ResNet的成就和影响力
- ResNet是深浅模型的集成
- 残差链接让损失曲面更平滑
- ResNet的后续改进

3.更强的图像分类模型

神经结构搜索Neural Architecture Search
Vision Transformers
ConvNeXt

4.轻量化卷积神经网络

4.1 卷积的参数量

请添加图片描述

4.2 卷积的计算量

请添加图片描述

4.3 降低模型参数量和计算量的方法

降低通道数C’和C---------ResNet
减小卷积核的尺寸K------GoogLeNet
可分离卷积-----将常规卷积分解为逐层卷积和逐点卷积------MobileNet
分组卷积—ResNeXt

5.Vision Transformers

5.1 注意力机制 Attention Mechanism

5.2 实现Attention

5.3 多头注意力 Multi-head(Self-)Attention

5.4 Vision Transformer

6.模型学习

6.1 模型的学习范式

监督学习

请添加图片描述

交叉熵损失
优化目标&随机梯度下降
权重初始化
学习率退火升温

请添加图片描述

6.2 模型增强

将图像副本用于训练，扩充训练数据集

组合数据增强
组合图像
标签平滑

模型相关策略

丢弃层 Dropout

随机深度 Stochastic Depth

6.3 自监督学习

请添加图片描述

基于代理任务
基于对比学习
基于掩码学习

7.MMClassification介绍

请添加图片描述

7.1 Python推理API

7.2 环境搭建

7.3 配置文件

7.4 预训练模型库

https://mmclassification.readthedocs.io/en/latest/modelzoo_statistics.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OpenMMLab AI实战营笔记（二）-图像分类与基础视觉模型

OpenMMLab AI实战营笔记（二）图像分类与基础视觉模型
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。