视觉大模型:DINO-Emerging Properties in Self-Supervised Vision Transformers论文读后感
MoCo系列,提出了momentum encode思想,作为二者的中间状态,V1核心思想,V2加了点SimCLR的优化点,V3移植到了ViT模型并主要在优化自监督的ViT训练时不稳定的问题(训练中acc发生dip),采用的是冻结第一层的思路,因为发现dip是第一层梯度暴涨并逐渐传播后导致的。DINO,借鉴了MoCo系列的momentum encode思想,同时借鉴了知识蒸馏的思路,希望让ViT中基于无监督训练先获得足够多的认知,避免直接监督信号后被快速积压到监督目标任务而无法积累全局性基础理解能力。