视觉大模型：MAE-Masked Autoencoders Are Scalable Vision Learners读后感

最新推荐文章于 2024-07-23 19:01:52 发布

stranger61

最新推荐文章于 2024-07-23 19:01:52 发布

阅读量123

点赞数

文章标签：深度学习机器学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stranger61/article/details/130745392

版权

大佬看问题的角度真的不一样，简单的方法，但为什么这么干的背后思考有理有据，实施细节的设计也是充满灵性。

自监督的方式，催生了NLP领域很多漂亮的工作。将文本中一部分词mask掉，来自监督预测这部分词，构建encode-decode模式，这样就可以得到比较鲁邦的encode模型，用在其他一些任务上作为预训练模型。

大佬的思考是，图像上的自监督应该怎么开展？

图像与NLP的差别：NLP的文字是高级信息，因为被人类提炼过，每个字都有自己的角色，信息密度高；图像更多是冗余信息，周边像素点可能差不多的，信息密度低。

建模差异：NLP用序列类模型，mask很容易实施；图像用CNN，接受规范的网格数据，怎么做到有效的mask掉？ViT把图像序列化了，用ViT。

进一步，前述图像中信息冗余多，只是mask掉一小部分数据，很容易通过周边信息推理出来，比较浅层的语义学习就行；但优秀的encode必须能提取到高层语义，比如物体、属性等，这就需要逼模型往高层走，所以施加大比例的mask（75%），让模型无法基于浅层信息就搞定。

具体的，将图像patch后，随机mask掉一定比例，并将这些mask的patch拿走不进入encode训练；encode后把mask的patch再按原来位置加回来，进decode试图重建出原图。

因为这是自监督的预训练网络，主要为下游任务提供基础；下游任务不会发生输入中有mask的patch，所以encode训练时也不能有。

在decode时，可直接预测patch内每个像素点值，或者PCA预测整个patch的频域信息(按特征值累计大小，只取低频)；或者，预测patch内相似度的均值方差+每个点相对变量，这样可以提高patch内点的对比度，这个效果最好。

还讨论了linear probing和所有层fine-tune两种模式，如果有些语义是非线性的，那在微调时只调linear部分就会调整不了非线性信息。“Partial Fine-tuning”，部分层+线性层调，发现多调部分层就可以达到全调的精度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
视觉大模型：MAE-Masked Autoencoders Are Scalable Vision Learners读后感

但优秀的encode必须能提取到高层语义，比如物体、属性等，这就需要逼模型往高层走，所以施加大比例的mask（75%），让模型无法基于浅层信息就搞定。将文本中一部分词mask掉，来自监督预测这部分词，构建encode-decode模式，这样就可以得到比较鲁邦的encode模型，用在其他一些任务上作为预训练模型。：NLP的文字是高级信息，因为被人类提炼过，每个字都有自己的角色，信息密度高；大佬看问题的角度真的不一样，简单的方法，但为什么这么干的背后思考有理有据，实施细节的设计也是充满灵性。
复制链接

扫一扫

stranger61 CSDN认证博客专家 CSDN认证企业博客

码龄8年

9: 原创

60万+: 周排名

29万+: 总排名

6191: 访问

: 等级

136: 积分

3: 粉丝

12: 获赞

5: 评论

9: 收藏

私信

关注

热门文章

分类专栏

PAT题目笔记 1篇

最新评论

离线下载高版本gcc--devtoolset-9-gcc
blue_lucky: 感谢，解决了
视觉大模型：DINO-Emerging Properties in Self-Supervised Vision Transformers论文读后感
CSDN-Ada助手: 恭喜您写出了这篇有关视觉大模型的博客，读后感也非常精彩。自我监督视觉转换器的新兴属性确实很令人着迷。我希望您能继续保持创作的热情，并且在接下来的文章中，可以多探讨一些相关的前沿研究，让读者们更深入了解这个领域的发展。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
视觉大模型：MAE-Masked Autoencoders Are Scalable Vision Learners读后感
CSDN-Ada助手: 恭喜您写了这篇关于MAE-Masked Autoencoders的读后感，对视觉大模型的学习有了更深入的了解。接下来，建议您可以继续关注和研究相关领域的新进展，分享给大家更多有价值的见解和经验。期待您的下一篇创作。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
PAT 1007. 素数对猜想 python 运行超时问题解决方案
不争而善胜: 厉害了，1013用了楼主的办法运行196ms，限时200ms...... 总觉得还得优化一步才稳过
PAT 1007. 素数对猜想 python 运行超时问题解决方案
小白littlewhite: 真的牛逼！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。