【OpenMMLab AI训练营第二期】Class4: MMPreTrain

最新推荐文章于 2024-06-14 20:43:21 发布

lostcorner

最新推荐文章于 2024-06-14 20:43:21 发布

阅读量212

点赞数

分类专栏： OpenMMLab AI Camp S2 文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/lostcorner/article/details/131076067

版权

OpenMMLab AI Camp S2 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

MMPreTrain

MMPreTrain算法库介绍
- 算法库与任务组成
- 框架概览
经典主干网络
自监督学习
- SimCLR
- MAE
多模态算法
- CLIP
- BLIP

MMPreTrain算法库介绍

视频：深度学习预训练与MMPretrain

算法库与任务组成

MMPreTrain是源自MMClassification和MMSelfSup的一个全新升级的预训练算法框架，能够提供各种强大的预训练主干网络。目前，预训练阶段对于视觉任务至关重要，凭借丰富而强大的预训练模型，能够对各种下游任务进行改进。
在这里插入图片描述

在MMPreTrain中，包含了很多内容，有主流的backbone模型，如VGG、ResNet，还有轻量化的MobileNet等。也有自监督学习算法MoCo等，还有多模态算法CLIP等。同时也提供了各类数据集，例如COCO、ImageNet，也有多模态的数据集ScienceQA等，还有训练技巧与策略和各种用于模型训练、推理的小工具。

框架概览

以下是OpenMMLab软件栈以及MMPreTrain的安装步骤
在这里插入图片描述
其中有个重要概念就是配置文件，可以对配置文件进行修改来得到自己的模型

所以整个算法的数据流如下：

当我们配置好了定义文件，同时选取好了预训练模型并准备好了数据集，就可以通过Registry、Runner等模块以及训练、测试、推理工具来实现算法。
在这里插入图片描述

经典主干网络

深度学习早期的网络都比较浅，后来通过堆叠网络能够获得更好的效果如AlexNe、VGG等等。但是人们发现，模型层数增加到一定程度后，分类正确率不增反降。

ResNet

通过实验，得到了残差建模。也就是残差网络
在这里插入图片描述
这样的残差结构大大解决了梯度回传的问题，因为在梯度的链式求导法则中，梯度可能越来越小。但是这样的跨层网络，让梯度能够提前传回前面的浅层网络。这种设计是有效的，直到现在这种残差的思想仍然存在。
以下是ResNet中的两种残差模块：
在这里插入图片描述
ResNet在VGG的基础上改进

ResNet是深度学习领域中影响力最大、使用最广泛的模型之一。

Vision Transformer

在这里插入图片描述
这是ViT的逻辑图。

首先将图像分割成若干个固定大小的patch，所有块排列成一个词向量。先经过线性层映射，一张[H,W,C]维度的图像变为[L,C]，再经过多层Encoder的计算产生相应的特征向量。
patch之外加入额外的token，用于query其他patch的特征并给出最后的分类概率
注意力模块基于全局感受域。

注意力机制

注意力机制是为了对不同的特征进行一个有权重的选取，实现层次化特征。
在这里插入图片描述
这是一个一维数据的注意力计算的逻辑图，首先取一个输入，通过 $W_Q、W_K、W_V$ 的计算得到 $Q K V$ ，将 $Q K$ 进行一个计算得到一个 $2\times2$ 的权重，再把这个权重和 $V$ 计算得到结果。
因为是由自身的输入来产生 $Q K V$ 三个向量，所以叫做self-attention。
在这里插入图片描述
Multi-head Attention
多头注意力就是把两个特征图上得到的两组 $Q K V$ 进行拼接得到最后结果。
这样的好处是在计算过程中，不同的注意力能够对不同的特征进行分别提取，从而提升网络的性能。