openmmlabAI实战训练营6.5mmpretrain理论部分

最新推荐文章于 2024-08-12 16:25:03 发布

Ezrealok

最新推荐文章于 2024-08-12 16:25:03 发布

阅读量161

点赞数 1

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/Ezrealok/article/details/131056228

版权

今天是mmpretrain理论部分的介绍，三十多分钟的视频其实涵盖了很多内容，但我都不太了解。仅根据自己的理解记录一下。

mmpretrain提供了丰富的模型：主干模型（VGG,ResNet，DenseNet，MobileNet，Shufflenet，ViT,SwinTransformer），自监督学习（MoCo，SIMCLRU，BEiT,MAE），多模态学习（CLIP,BLIP,Flamingo，DFA）等等。

配置文件是openmmlab一个很重要的部分。在深度学习模型训练有以下几个方面：1.模型结构：模型有几层，每层有多少通道数。2.数据：数据集划分，数据文件路径，批大小，数据增强策略等。3.训练优化：梯度下降算法，学习率参数，训练总轮次，学习率变化策略等。4.运行时：GPU，分布式环境配置等。5.辅助功能：打印日志，定期保存checkpoint等。

Vision Transformer:将图像切分为若干小块（如16×16），所有图像块排列成“词向量”，先经过线性层映射，一张[H,W,C]维度的图就变成了[L,C]维度的向量，加入位置编码后，再经过多层Transformer Encoder计算产生相应的特征向量。图像块之外回家一个额外的token，用于查询其他patch的特征并给出最后分类。注意力模块基于全局感受野，复杂度为尺寸的四次方。

自监督学习:基于各种代理任务，基于对比学习，基于掩码学习。

这里只简单介绍一下SIMCLR：基本假设：如果模型能够很好地提取图片内容的本质，那么图片无论经过怎样的数据增强，提取出的特征都应该极为相似。对于某种图片x，对它做数据增强产生x1和x2，x1和x2互为正样本，其他图片的数据增强结果都是x1和x2的负样本。我们要拉近正样本之间的特征距离，推远负样本之间的特征距离。

视频还介绍了很多新的算法，由于我了解甚少，不再赘述。可以去b站看具体视频：深度学习预训练与MMPretrain_哔哩哔哩_bilibili