CAE详解

小白在进步

已于 2022-05-19 18:32:47 修改

阅读量1.9k

点赞数 2

文章标签：计算机视觉人工智能

于 2022-05-19 18:31:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34201763/article/details/124861500

版权

参考文章：北大博士生提出CAE，下游任务泛化能力优于何恺明MAE_湃客_澎湃新闻-The Paper

MAE是基于可见patch的隐藏表示以及可见patch进行重建，CAE是基于可见patch的隐藏表示，引入latent context regressor（隐式上下文回归器）预测出mask patch的隐藏表示，再进行解码重建。

CAE将“表征学习”和“前置/代理任务”进行分离，要求encoder更好的进行表征学习，decoder更好的进行pretext task。

网络

1）encoder采用ViT，可见的patch经过encoder得到隐藏表示Zv

2）latent context regressor，基于可见patch的隐藏表示 + mask query，回归得到 mask patch的隐藏表示Zm

3）decoder，基于mask patch的隐藏表示，解码得到mask patch的一些目标性质，比如RGB像素。

4）alignment，为了约束regressor输出的Zm与encoder的输出在一个空间，保证其输出具有高质量表达，将mask patch也经过encoder得到Zm~，将Zm与Zm~进行alignment。

（1）将所有patch都经过编码器得到隐藏表示后，直接送入到decoder进行RGB重建，发现CAE能很好的重建图像，因此可以说明，regressor输出的隐藏表示 跟 encoder的隐藏表示 是同一隐藏空间。

（2）没有alignment的话，regressor输出的隐藏表示在解码后无法重建，因此说明没有align的话regressor的输出与encoder的输出不在同一个编码空间；

loss

1）对decoder输出的loss使用的是CEloss

2）对Alignment输出的表示进行监督，使用的是MAE loss

结论

进一步验证了MIM（mask image model）方法，要比对比学习（MOCO等）更适合下游任务。

且随机裁剪很大概率都会包括图像中心，而imganet数据集大多都是目标在中心，因此对比学习方法主要学习的还是主体的特征。而MIM通过随机的mask patch，能使得模型能考虑到图像中所有patch。

小白在进步

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小白在进步 CSDN认证博客专家 CSDN认证企业博客

码龄9年

3: 原创

137万+: 周排名

222万+: 总排名

2万+: 访问

: 等级

34: 积分

2: 粉丝

12: 获赞

2: 评论

121: 收藏

私信

关注

热门文章

最新评论

MAE详解
Lucas Kenton: 有个问题想请教一下，既然encoder仅在未被mask的patch上进行编码，生成潜在表示，decoder再基于潜在表示和被mask的patch一起重建，那计算loss的时候怎么又用的是原mask的patch与重构后该部分的图像的误差呀，decoder不是直接使用的mask patch吗？这样怎么会有误差呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。