OpenMMLab AI实战训练营day4-深度学习预训练和MMPreTrain
MMPreTrain介绍
MMPretrain是一个全新升级的预训练开源算法框架,旨在提供各种强大的预训练主干网络,并支持了不同的预训练策略。
MMPretrain源自MMClassification和 MMSelfSup,并开发了许多令人兴奋的新功能。目前,预训练阶段对于视觉识别至关重要,凭借丰富而强大的预训练模型,我们能够改进各种下游视觉任务。我们的代码库旨在成为一个易于使用和用户友好的代码库,并简化学术研究活动和工程任务。
MMPretrain含有丰富的模型,大量数据集支持,超多训练技巧与策略,以及其易用性。
经典主干网络
ResNet引入残差模块,让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习梯度可以直接回传到浅层网络监督浅层网络的学习
没有引入额外参入,让参数更有效贡献到最终的模型中
vision transfomer
将图像切分成若干16×16的小块,所有块排列成"词向量",先经过线性层映射,一张[H,W,C]维度的图片变为[L,C],再经多层Transformer Encoder的计算产生相应的特征向量
图块之外加入额外的token,用于query 其他 patch的特征并给出最后分类注意力模块基于全局感受野,复杂度为尺寸的4次方
自监督学习
基于各种代理任务
基于对比学习
基于掩码学习
多模态学习
CLIP