openmmlabAI实战训练营6.5mmpretrain理论部分

今天是mmpretrain理论部分的介绍,三十多分钟的视频其实涵盖了很多内容,但我都不太了解。仅根据自己的理解记录一下。

mmpretrain提供了丰富的模型:主干模型(VGG,ResNet,DenseNet,MobileNet,Shufflenet,ViT,SwinTransformer),自监督学习(MoCo,SIMCLRU,BEiT,MAE),多模态学习(CLIP,BLIP,Flamingo,DFA)等等。

配置文件是openmmlab一个很重要的部分。在深度学习模型训练有以下几个方面:1.模型结构:模型有几层,每层有多少通道数。2.数据:数据集划分,数据文件路径,批大小,数据增强策略等。3.训练优化:梯度下降算法,学习率参数,训练总轮次,学习率变化策略等。4.运行时:GPU,分布式环境配置等。5.辅助功能:打印日志,定期保存checkpoint等。

Vision Transformer:将图像切分为若干小块(如16×16),所有图像块排列成“词向量”,先经过线性层映射,一张[H,W,C]维度的图就变成了[L,C]维度的向量,加入位置编码后,再经过多层Transformer Encoder计算产生相应的特征向量。图像块之外回家一个额外的token,用于查询其他patch的特征并给出最后分类。注意力模块基于全局感受野,复杂度为尺寸的四次方。

自监督学习:基于各种代理任务,基于对比学习,基于掩码学习。

这里只简单介绍一下SIMCLR:基本假设:如果模型能够很好地提取图片内容的本质,那么图片无论经过怎样的数据增强,提取出的特征都应该极为相似。对于某种图片x,对它做数据增强产生x1和x2,x1和x2互为正样本,其他图片的数据增强结果都是x1和x2的负样本。我们要拉近正样本之间的特征距离,推远负样本之间的特征距离。

视频还介绍了很多新的算法,由于我了解甚少,不再赘述。可以去b站看具体视频:深度学习预训练与MMPretrain_哔哩哔哩_bilibili

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值