深度学习预训练与MMPreTrain

最新推荐文章于 2024-06-11 17:42:30 发布

travel?

最新推荐文章于 2024-06-11 17:42:30 发布

阅读量349

点赞数

文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/travel_66/article/details/131073132

版权

MMPreTrain是一个集成预训练模型的框架，包括ResNet和VisionTransformer等。它支持多种预训练策略，如自监督学习的SimCLR和MAE，以及多模态的CLIP和BLIP，适用于图像分类、视觉问答等任务。

摘要由CSDN通过智能技术生成

这节课的内容是认识一下MMPreTrain，相比上周的MMPose和MMDetection好像没有那么直观，理论更多。下面简单总结一下有关MMPreTrain吧。

MMPreTrain算法库介绍

MMPreTrain是一个全新升级的预训练开源算法框架，提供各种强大的预训练主干网络，支持了不同的预训练策略。合并了MMClassification和MMSelfSup，有利于用户对不同模型进行筛选。

算法库与任务组成

MMPreTrain依托于Openmmlab软件栈，基于Pytorch有MMEngine，MMCV等，搭建了MMPreTrain算法库。包含了丰富的模型，数据集支持，训练技巧与策略，易用性。
在这里插入图片描述
包含丰富的相关任务，例如图像分类，图像描述，视觉问答，视觉定位，检索，并且提供了相应的推理接口方便调用。
深度学习模型训练涉及模型结构、数据、训练优化、运行时辅助功能。

框架概览

代码框架如图所示
在这里插入图片描述

数据流

经典主干网络

经过实验会发现模型层数增加到一定程度后，分类正确率不增反降。由此引出了残差学习。

ResNet（残差网络）

在这里插入图片描述
残差建模：让新增加的层拟合浅层网络和深层网络之间的差异更容易学习，梯度可以直接回传到浅层网络监督浅层网络的学习，没有引入额外参入，让参数更有效贡献到最终的模型中。
整个残差网络的结构共有5级，每级包含若干残差模块，不同残差模块有个数不同的ResNet残差结构，每级输出分辨率减半，通道倍增，最后通过全局平均池化压缩空间维度，再加一个全连接层产生相关类别的概率。
残差网络应用广泛，不论是各类视觉Transformer或者时ConvNeXt这类卷积神经网络，亦或是GPT及各类大语言模型中都会看到。

Vision Transformer

图片token化，获得Patch向量后加上对应的位置编码信息，再送到多层Transformer Encoder进行计算。
图片之外加入额外的token，用于query其他patch的特征并接一个全连接层，给出最后分类，获得分类概率。
注意力模块复杂度为大尺寸的4次方。
Vision Transformer中最重要的是注意力机制，实现层次化特征，后层特征是空间领域内的前层特征的加权求和，权重越大，对应位置的特征就越重要。