CAE详解

参考文章:北大博士生提出CAE,下游任务泛化能力优于何恺明MAE_湃客_澎湃新闻-The Paper

MAE是基于可见patch的隐藏表示以及可见patch进行重建,CAE是基于可见patch的隐藏表示,引入latent context regressor(隐式上下文回归器)预测出mask patch的隐藏表示,再进行解码重建。

CAE将“表征学习”和“前置/代理任务”进行分离,要求encoder更好的进行表征学习,decoder更好的进行pretext task。


网络

1)encoder采用ViT,可见的patch经过encoder得到隐藏表示Zv

2)latent context regressor,基于可见patch的隐藏表示 + mask query,回归得到 mask patch的隐藏表示Zm

3)decoder,基于mask patch的隐藏表示,解码得到mask patch的一些目标性质,比如RGB像素。

4)alignment,为了约束regressor输出的Zm与encoder的输出在一个空间保证其输出具有高质量表达,将mask patch也经过encoder得到Zm~,将Zm与Zm~进行alignment。

(1)将所有patch都经过编码器得到隐藏表示后,直接送入到decoder进行RGB重建,发现CAE能很好的重建图像,因此可以说明,regressor输出的隐藏表示encoder的隐藏表示 是同一隐藏空间。

(2)没有alignment的话,regressor输出的隐藏表示在解码后无法重建,因此说明没有align的话regressor的输出与encoder的输出不在同一个编码空间;

​ 

loss

1)对decoder输出的loss使用的是CEloss

2)对Alignment输出的表示进行监督,使用的是MAE loss

结论

 进一步验证了MIM(mask image model)方法,要比对比学习(MOCO等)更适合下游任务。

且随机裁剪很大概率都会包括图像中心,而imganet数据集大多都是目标在中心,因此对比学习方法主要学习的还是主体的特征。而MIM通过随机的mask patch,能使得模型能考虑到图像中所有patch。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值