一.MMpreTrain算法库介绍
MMPretrain算法库:易于使用、用户友好,支持多模态学习的算法,提供了cam可视化和可解释性分析的工具以及图像描述生成算法。
算法库与任务组成
预训练工具箱MMPretrain
框架概览
代码框架
数据流
配置文件的运行方式
二.经典主干网络
深度神经网络
精度退化问题
Resnet
ResNet中的两种残差模块
残差网络 ResNet(2015)
残差建模: 让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习梯度可以直接回传到浅层网络监督浅层网络的学习没有引入额外参入,让参数更有效贡献到最终的模型中
将图像切分成若干 16x16 的小块,所有块排列成”词向量”,先经过线性层映射,一张[H,w,C] 维度的图片变为[L,C],再经多层 Transformer Encoder 的计算产生相应的特征向量图块之外加入额外的 token,用于 query 其他 patch 的特征并给出最后分类注意力模块基于全局感受野,复杂度为尺寸的 4次方
ResNet的成就和影响力
Vision Transformer
注意力机制Attention Mechanism
Why Attention
Attention for 1D data
Multi-head多头注意力机制
三.自监督学习:通过数据增强以及单batch内的负样本训练,使用simclr来比较两个图像的相似性。
自监督学习的常见类型
SimCLR(ICML 2020)
MAE(Masked Autoencoders, CVPR 2022)
四.多模态算法
CLIP
BLIP