[MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers

1、目的

        探索基于contrastive/Siamese范式(而非masked auto-encoding范式)和ViT结构(而非卷积网络)的自监督学习

2、方法

        MoCo v3

                ​​​​​​​        

        1)random data augmentation

        2)query encoder f_{q},key encoder f_{k}

        3)学习目标是retrieve corresponding "key"。损失函数用InfoNCE:

                ​​​​​​​        ​​​​​​​        

        4)不用memory queue,因为batch足够大

        5)encoder = backbone + projection head + prediction head。f_{k}f_{q}的moving average,但去除了prediction head

3、训练稳定性

        训练的稳定性不会导致网络不收敛,而会导致准确性下降

        1)batch size过大时导致训练不稳定

        2)learning rate = lr \times BatchSize / 256。学习率越小,训练越稳定,但可能under-fitting;学习率越大,训练越不稳定

        3)optimizer

                LAMB(AdamW-counterpart of LARS)对lr的要求比较高,最终还是选用AdamW

        4)提升稳定性的trick

                gradient spike先出现在first layer,然后在几个iteration之后出现在last layer,说明训练不稳定性起源于shallower layers

                固定random patch projection层可以提升稳定性,而BatchNorm、WeightNorm、(阈值不够小的)gradient clip作用不大         

                将3通道16x16的patch编码为768-d的输出,信息损失可以忽略不计,因此即便用随机参数初始化也可以    

4、其他

        去除position embedding只轻微影响准确性,说明位置信息还没有被充分探索

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值