学习笔记【自监督VIT】

最新推荐文章于 2024-10-14 22:10:11 发布

hei_hei_hei_

最新推荐文章于 2024-10-14 22:10:11 发布

阅读量763

点赞数

分类专栏：学习笔记文章标签：学习机器学习人工智能

本文链接：https://blog.csdn.net/hei_hei_hei_/article/details/125718648

版权

13 篇文章

订阅专栏

将BERT应用到CV领域遇到的一些问题：将图片编码成向量之后不是类似语言中token的表示形式，所以无法进行预测 $< m a s k >$ 的操作。基于此，最开始在cv领域流行的对比学习模式是实例判别
最近半年随着VIT的发展，Constrastive Learning范式逐渐转变为Dnoise Auto-Encoding范式（类似于bert的训练方法，参考链接自动去噪编码器），因为VIT不仅可以得到token表示，还可以得到整张图片的表示

在DAE的基础上加上了constrastive learning，即进行多任务训练。可以同时兼顾全局和token信息。从实验结果发现，Linear Probing和Fine-tuning都有很好的表现

一开始不用 $< m a s k >$ ，输入直接去掉 $< m a s k >$ ，只保留没有mask的patch，经过若干encoder之后再将mask加入，之后再进行解码预测mask掉的token（mask比例为75%，BERT为15%）
这种小的改动使得训练效果有很大提升，训练速度也有大幅提高。这种改进类似于nlp领域中的BART（多任务训练）
work的原因：直观上理解是因为输入的image patch序列是在一个连续的向量空间，如果直接用 $< m a s k >$ 替换原始token，模型难以区分是patch还是mask。而经过encoder之后token都有了一定的语义（我觉得可以理解为模型对token有了一定的理解），这时再将 $< m a s k >$ 加入，模型在一定程度上能够区分mask和token。
有潜力！