04 深度学习预训练与MMPretrain

记录时间:2023年6月6日

MMPretrain算法库

基于MMEngine(基础深度学习训练框架)、MMCV(计算机视觉基础库)
是一个预训练的开源算法框架,旨在提供各种预训练主干网络,并支持不同预训练策略,同时支持多模态功能。

代码仓库:地址
文档教程:地址

推理API

在这里插入图片描述

openmmlab的配置文件

需要配置的信息如下图所示
在这里插入图片描述

代码框架

在这里插入图片描述

数据流过程

在这里插入图片描述

配置文件运行方式

在这里插入图片描述
通过以上的学习,可以参考该算法库的整体框架,为以后自己的开发工作作相应的准备

经典主干网络

ResNet

论文:Deep residual learning for image recognition(CVPR2016)

第一阶段:堆叠网络层数

  • AlexNet(2012)——8层
  • VGG(2014)——16、19层
  • GoogLeNet(2014)——22层
    然而,人们发现模型层数增加到一定数目后,分类正确率不增反降
    在这里插入图片描述
    猜想:虽然深层网络有潜力达到更高的精度,但常规的优化算法难以找到这个更优的模型,即,让新增加的卷积层拟合一个近似恒等映射,恰好可以让浅层网络变好一点。(具体细节建议看原视频)原视频

第二阶段:残差学习

发展思路:
在这里插入图片描述
由上述思路,引出了ResNet

但引出了问题:为什么这样处理就可以使得效果更好?(暂时不理解)

ResNet的两种残差模块:
在这里插入图片描述
ResNet网络整体结构
在这里插入图片描述在这里插入图片描述

Vision Transformer

论文:An image is worth 16✖16 words: Transformers for image recognition at scale
整体结构
在这里插入图片描述

注意力机制使用举例

在这里插入图片描述

注意力机制

在这里插入图片描述
注意到在卷积当中,权重只与前层特征的局部关系相关;而在注意力机制中,权重将前层特征作为一个输入,可以更好的、显示的(相比卷积)建模远距离关系。(个人理解,不知对否)

一维数据的注意力机制的计算的逻辑图
在这里插入图片描述
在该逻辑图中,我没听明白注意力机制的运行过程,此处需要更进一步的了解注意力机制的细节与计算逻辑。由于通过自身输入产生Q、K、V向量,被称为self-attention。
问题1:注意力机制的细节(Q、K、V的计算过程)

Multi-head Attention(多头注意力机制)
multi-head in attention = multi-channel in conv
优点:在计算过程中,不同头的注意力可以对不同的特征进行提取,从而提升网络性能
在这里插入图片描述

自监督学习

互联网上有海量的数据,但是有标注的数据却少之又少,为了利用这些海量数据而不依赖人工标注,让深度神经网络能够从数据本身去学到对应的特征表达,因此发展了自监督学习。

分类

基于各种代理任务

  • 图像上色
    在这里插入图片描述

  • 图像排序(拼图)
    在这里插入图片描述

基于对比学习

在这里插入图片描述

SunCLR

论文:A simple framework for contrastive learning of visual representations(ICML 2020)
基本假设:如果模型能很好地提取图片内容的本质,那么无论图片经过什么样的数据增强操作,提取出来的特征都应该极为相似。

在这里插入图片描述
训练的目的是使目标图像的正样本与其他图像的负样本之间的差异越来越大——拉近正样本之间的距离,推远正负样本之间的距离。(对比学习的思路)

基于掩码学习

掩码学习的逻辑:
在这里插入图片描述

Masked Autoencoders(MAE)

论文:Masked autoencoders are scalable wision learners(CVPR 2022)
基本假设:模型只有理解图片内容、掌握图片的上下文信息,才能恢复出图片中被随机遮挡的内容。
在这里插入图片描述

对比、掩码结合起来的方式

在这里插入图片描述

多模态算法

多模态定义参考:链接

CLIP

论文:Learning Transferable Visual Models from Natural Language Supervision(ICML 2021)
在这里插入图片描述
CLIP的测试结果:
在这里插入图片描述
结论:

  1. 在大规模数据集上使用NLP监督预训练图像分类器,证明了简单的预训练任务,即预测图像和文本描述是否相匹配,是一种有效的、可扩展的方法。
  2. 用4亿对来自网络的图文数据对,将文本作为图像标签,进行训练。进行下游任务时,只需提供和图像对应的文本描述,就可以进行zero-shot transfer,并取得可观的结果。
    问题:什么是zero-shot transfer?

BLIP

论文:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation(ICML 2022)

特征区分

在这里插入图片描述

特征匹配

在这里插入图片描述

文字生成
在这里插入图片描述

在这里插入图片描述

其他多模态算法

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值