18.自监督视觉`transformer`模型DINO

最新推荐文章于 2024-10-30 20:37:20 发布

恒友成

最新推荐文章于 2024-10-30 20:37:20 发布

阅读量436

点赞数

分类专栏：计算机视觉文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/lx_ros/article/details/134171672

版权

DINO是一种自监督学习的视觉Transformer模型，利用知识蒸馏技术进行训练。文章介绍了DINO的总体结构、多裁剪策略、损失函数、中心化与锐化等关键点，展示了其在无标注数据上的优秀表现，可以应用于语义分割和目标检测等领域。

摘要由CSDN通过智能技术生成

文章目录

自监督视觉`transformer`模型DINO

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

自监督视觉`transformer`模型DINO

总体介绍

论文:1.Emerging Properties in Self-Supervised Vision Transformers

这篇文章旨在探索自监督训练有没有给视觉transformer带来相对于CNN没有的新特性。

除了观测到自监督训练ViT工作特别好外，作者还有两个新发现，一个是自监督训练得到的特征图包含明显的语义信息，有可能将自监督的结果直接拿来做语义分割和目标检测，另外一个是直接拿自监督得到的特征向量应用KNN分类，得到了非常好的效果。ps:本人在工程数据(20W张)上验证的直接使用KNN分类的效果比efficient-net还好。

正如DINO的名字缩写，这整个算法使用了知识蒸馏的架构，通过一个teacher网络引导student的学习，使用损失值计算的梯度更新student模型的参数，而teacher模型的参数使用的是student模型参数的指数移动平均值，和BYOL的方法有些相似。除了知识蒸馏，作者还强调了对输入进行RandomResizeCrop和transformer使用小patch_size的重要性。同时，DINO需要对teacher的输出进行中心化和锐化centering and sharpening,否则模型训练会不稳定，甚至崩溃(collapse)。DINO使用的student和teacher且训练过程中相互促进学习，也属于共蒸馏codistillation模型。