视觉大模型：DINO-Emerging Properties in Self-Supervised Vision Transformers论文读后感

stranger61

已于 2023-05-23 16:01:00 修改

阅读量348

点赞数

文章标签：深度学习人工智能

于 2023-05-23 15:57:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stranger61/article/details/130829115

版权

基于蒸馏的思想，实现图像的自监督学习。这里只是自监督的预训练模型，还需要针对下有任务微调的。

首先区分，生成式的任务和判别式的任务。比如图像生成，那mask掉一块让模型把这块补出来，自监督比较容易实现。但如果判别式的，比如实例分割、分类、检索等任务，自监督应该监督什么信息？

已有的研究，监督一张图各种数据增强后还和自身相近，但实现方式上有end-to-end和memory-bank，主要是对负例的管理方式，监督采用对比学习。MoCo系列，提出了momentum encode思想，作为二者的中间状态，V1核心思想，V2加了点SimCLR的优化点，V3移植到了ViT模型并主要在优化自监督的ViT训练时不稳定的问题(训练中acc发生dip)，采用的是冻结第一层的思路，因为发现dip是第一层梯度暴涨并逐渐传播后导致的。

DINO，借鉴了MoCo系列的momentum encode思想，同时借鉴了知识蒸馏的思路，希望让ViT中基于无监督训练先获得足够多的认知，避免直接监督信号后被快速积压到监督目标任务而无法积累全局性基础理解能力。
教师和学生网络，同一个模型结构但不同模型参数；一张图，学生模型有全局视野和局部视野两种裁剪程度的输入，教师模型只有全局视野程度的；然后，学生模型和教师模型softmax输出概率要交叉熵对齐，逼迫学生模型也要能学到全局视野的信息；学生模型正常BP训练，教师模型也是momentum式(指数移动平均)基于学生模型的参数更新。

另外，输出时教师模型加入了centering+sharpening，目的是不同batch的结果保持稳定，自然就可能克制dip的问题。

实验中，发现ViT的patch取的分辨率小一点，效果更好但计算效率也骤降；用更大更好的数据自监督训练，微调后对应任务表现可能更好。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
视觉大模型：DINO-Emerging Properties in Self-Supervised Vision Transformers论文读后感

MoCo系列，提出了momentum encode思想，作为二者的中间状态，V1核心思想，V2加了点SimCLR的优化点，V3移植到了ViT模型并主要在优化自监督的ViT训练时不稳定的问题(训练中acc发生dip)，采用的是冻结第一层的思路，因为发现dip是第一层梯度暴涨并逐渐传播后导致的。DINO，借鉴了MoCo系列的momentum encode思想，同时借鉴了知识蒸馏的思路，希望让ViT中基于无监督训练先获得足够多的认知，避免直接监督信号后被快速积压到监督目标任务而无法积累全局性基础理解能力。
复制链接

扫一扫

stranger61 CSDN认证博客专家 CSDN认证企业博客

码龄8年

9: 原创

60万+: 周排名

29万+: 总排名

6191: 访问

: 等级

136: 积分

3: 粉丝

12: 获赞

5: 评论

9: 收藏

私信

关注

热门文章

分类专栏

PAT题目笔记 1篇

最新评论

离线下载高版本gcc--devtoolset-9-gcc
blue_lucky: 感谢，解决了
视觉大模型：DINO-Emerging Properties in Self-Supervised Vision Transformers论文读后感
CSDN-Ada助手: 恭喜您写出了这篇有关视觉大模型的博客，读后感也非常精彩。自我监督视觉转换器的新兴属性确实很令人着迷。我希望您能继续保持创作的热情，并且在接下来的文章中，可以多探讨一些相关的前沿研究，让读者们更深入了解这个领域的发展。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
视觉大模型：MAE-Masked Autoencoders Are Scalable Vision Learners读后感
CSDN-Ada助手: 恭喜您写了这篇关于MAE-Masked Autoencoders的读后感，对视觉大模型的学习有了更深入的了解。接下来，建议您可以继续关注和研究相关领域的新进展，分享给大家更多有价值的见解和经验。期待您的下一篇创作。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
PAT 1007. 素数对猜想 python 运行超时问题解决方案
不争而善胜: 厉害了，1013用了楼主的办法运行196ms，限时200ms...... 总觉得还得优化一步才稳过
PAT 1007. 素数对猜想 python 运行超时问题解决方案
小白littlewhite: 真的牛逼！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。