[MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers

最新推荐文章于 2024-09-22 19:41:13 发布

emergency_rose

最新推荐文章于 2024-09-22 19:41:13 发布

阅读量522

点赞数 5

分类专栏： paper阅读笔记文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_30618203/article/details/141894064

版权

paper阅读笔记专栏收录该内容

63 篇文章

订阅专栏

1、目的

探索基于contrastive/Siamese范式（而非masked auto-encoding范式）和ViT结构（而非卷积网络）的自监督学习

2、方法

MoCo v3

1）random data augmentation

2）query encoder $f_{q}$ ，key encoder $f_{k}$

3）学习目标是retrieve corresponding "key"。损失函数用InfoNCE：

4）不用memory queue，因为batch足够大

5）encoder = backbone + projection head + prediction head。 $f_{k}$ 是 $f_{q}$ 的moving average，但去除了prediction head

3、训练稳定性

训练的稳定性不会导致网络不收敛，而会导致准确性下降

1）batch size过大时导致训练不稳定

2）learning rate = $lr \times BatchSize / 256$ 。学习率越小，训练越稳定，但可能under-fitting；学习率越大，训练越不稳定

3）optimizer

LAMB（AdamW-counterpart of LARS）对lr的要求比较高，最终还是选用AdamW

4）提升稳定性的trick

gradient spike先出现在first layer，然后在几个iteration之后出现在last layer，说明训练不稳定性起源于shallower layers

固定random patch projection层可以提升稳定性，而BatchNorm、WeightNorm、（阈值不够小的）gradient clip作用不大

将3通道16x16的patch编码为768-d的输出，信息损失可以忽略不计，因此即便用随机参数初始化也可以

4、其他

去除position embedding只轻微影响准确性，说明位置信息还没有被充分探索

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。