MAE粗略了解

在这里插入图片描述
encoder–抽取可见图像的特征,对于某个token来说,就是获取图像的高维语义信息。
decoder–通过抽取的图像特征重建图像的过程
为什么要mask掉75%的patch???
文字带有高信息密度,mask15%就够了,但是图像信息冗余,15%不够,要更高,以便学到良好的潜在特征表示。
第一步:划分patch,同时mask掉75%的patch
第二步:把可见的patch输入到encoder中去,使用vit模型
第三步:输入拼接上mask patch,过decoder,将token化的patch还原成图像形式
第四步:解码端之后有一个隐层映射,做损失。没有被mask的部分不计算损失
图像分类:encoder得到的每一个token,得到embeding,做一个pooling。只用到encoder。
为什么mask符号放在解码端 而不是编码端???
答:因为MAE在试图让预训练模式和微调形式保持一致。Bert在缩小这个差距。
如何评价MAE的效果???–可以很好地重现原始图像的大部分内容!!!
在这里插入图片描述
测试预训练模型性能
两种度量方式:
Linear probe–固定encoder参数,后面接一个linear层,学习linear层
Fine tune–整个模型包括encoder一起学习
linear probe其实就相当于只让finetune最后一层。
总结:BERT自监督模型应用在NLP中;ViT应用在CV中;MAE结合两种。
论文试图解决什么问题?
在CV领域中可应用的的自监督预训练模型。
CV领域的自监督多是基于对比(Contrative)学习。
NLP领域中的自监督都是基于生成(Generative)的方法(如BERT)。
本文是在CV领域中基于Generative自监督的方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值