[OpenMMLab]AI实战营第二节课

最新推荐文章于 2024-05-16 10:12:14 发布

乐乐要当航天猿

最新推荐文章于 2024-05-16 10:12:14 发布

阅读量88

点赞数

分类专栏：无所不能的OpenMMLab 文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/ly_970909/article/details/128877516

版权

无所不能的OpenMMLab 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

图像分类与基础视觉模型

任务目标：给定一张图片，识别图像中的物体是什么

任务难点：图像内容是像素整体呈现的结果，和个别像素值没有直接关联，难以遵循具体的规则设计算法

任务方法：从数据中学习定义模型->训练->预测

课程内容分为两部分：1、模型设计；2、模型学习。

图像分类模型设计

卷积神经网络

在这里插入图片描述

2012 AlexNet使用5个卷基层、3个全连接层、ReLU激活函数成功搭建大规模图像模型，实现并开源了cuda-convnet；

2012-2014 加深神经网络，从而诞生了VGG（提取不同尺寸特征图）、GoogLeNet（不同卷积核不同感受野）

随着神经网络深度增加，分类正确率不增反降，引入近似恒等映射，避免梯度消失等问题；

2015 ResNet，综合VGG和GoogLenet优点，并引入残差链接设计残差模块，获得CVPR2016最佳论文奖；

2016 神经结构搜索NAS，借助强化学习等方法搜索表现最佳的网络；

2020 VIT，使用Transformer替代卷积网络实现图像分类，使用更大的数据集训练，达到超越卷积网络的精度；

2022 ConvNeXt，参考Swin Transformer结构，设计卷积网络结构，性能反超Transformer

轻量化卷积神经网络

对于一个普通的卷积过程：
在这里插入图片描述
输入特征图 $X\in R^{H\times W\times C}$

输出特征图 $X\in R^{H\times W\times C'}$

卷积的参数量： $C^{\prime} \times(C \times K \times K+1)=C^{\prime} C K^{2}+C^{\prime}$

卷积的计算量： $H^{\prime} \times W^{\prime} \times C^{\prime} \times(C \times K \times K)=H^{\prime} W^{\prime} C^{\prime} C K^{2}$

GoogLeNet引入1*1的卷积核，在引入不同感受野产生不同的特征的同时，也可以减少参数量

ResNet利用1*1卷积核串联在backbone模块中用于压缩通道，降低开销

MobileNet 可分离卷积，常规卷积=逐层卷积+逐点卷积

ResNeXt 分组卷积，将输入和卷积按照通道分组，在保证输出特征数量的情况下降低计算量

Vision Transformer

Transformer与cnn不同的是，Transformer更注重对应位置的权重信息，权重是输入的函数。

单头注意力如图所示：
在这里插入图片描述
多头注意力是在多通道输入concat的结果。

Vision Transformer将图像切分乘16*16小块，形成词向量输入Transformer编码器中，引入token来输入最后的分类，由此注意力模块是基于全局感受野的，复杂度也大。

Swin Transformer提出分层结构，并将图像划分窗口，将编码过程局限于窗口内，减低计算量；窗口与窗口之间，引入Shifted Window Multi-Head Self-Attention概念；以W-MSA和SW-MSA组成块为基础，堆叠4层获得特征图。

图像分类模型学习

学习范式：1、监督学习；2、自监督学习。

监督学习

一般流程流程：标注数据集 -> 定义损失函数 -> 解最优化问题

分类问题常用损失函数：交叉熵损失Cross-Entropy Loss，利用one-hot编码规则，预测越精准（正样本为正，负样本为负）则损失越低；

优化器：SGD和动量SGD，上一节已经讲过

学习率与优化器策略

权重初始化

1、朴素方法，均匀分布或者高斯分布确定初始值；

2、Xavier方法，前传时维持激活值的方差，反传维持梯度的方差：
$a=\sqrt{6 /\left(\operatorname{fan}_{\text {in }}+\operatorname{fan}_{\text {out }}\right)} \text { or } \sigma=\sqrt{2 /\left(\operatorname{fan}_{\text {in }}+\operatorname{fan}_{\text {out }}\right)}$
3、Kaming方法，针对ReLU函数：
$a=\sqrt{6 / n} \text { or } \sigma=\sqrt{2 / n} \text {, here } n=\operatorname{fan}_{\text {in }} \text { or } \operatorname{fan}_{\text {out }}$
4、用训练好的模型权重初始化，替换与训练模型的分类头，进行微调