Barlow Twins论文阅读
介绍
论文地址
Barlow Twins一种自监督学习的方法
创新
- 对比于之前的BYOL,Simsiam非对称自监督学习网络,Barlow Twins采用对称结构
- 并且没有momentum,predictor,stop-grad结构
- 设计了一种新的loss计算方法来避免坍塌
- 计算两个网络输出vector的相似度,得到一个cross-correlation matrix(互相关矩阵),使得该矩阵逼近一个单位矩阵
- 互相关矩阵的主对角线要接近单位矩阵,即同一样本在不同的图像增强下,网络提取的特征表示非常相似,保证 z i A z^{A}_{i} ziA和 z i B z^{B}_{i} ziB的相关性
- 非主对角线的元素要接近0,解耦特征向量不同的分量,使得特征向量分量间的冗余最小化,即特征向量已经保证 z i A z^{A}_{i} ziA和 z i B z^{B}_{i} ziB的相关性了,就不要再让 z i A z^{A}_{i} ziA和 z j B z^{B}_{j} zjB具有相关性了
- 模型的性能随着特征维度增强而增强
方法与实现
结构
-
数据增强
- 随机裁剪,resize,水平翻转,颜色抖动,转换灰度,高斯平滑,曝光,参数采用和BYOL相同的设置
-
encoder层,采用一个resnet50作为backone
-
projector层,为一个3层MLP结构
- 前两层为,Linear + BN + RELU, 维度为8192
- 第三层为,Linear,维度为8192
-
optimizer,和BYOL,Simsiam一样采用LARS优化器(参考该博文LARS)
-
learning rate,采用SGRD的学习率调整策略(参考该博文SGRD)
-
loss计算
-
互相关矩阵计算
-
loss计算, λ \lambda λ为权衡参数,是一个常数
-
伪代码
实验
性能评估
Linear evaluation in ImageNet
Semi-supervised training on ImageNet
消融实验
不同的loss function
Batch size
对于batch size比较敏感
图像增强
对图像增强策略敏感
特征维度
实验中,对于16384维度,模型依然没有趋于饱和状态,可能存在进步空间
引入predictor和stop-grad
参考
2021(SSL) 自监督学习最新力作:Barlow Twins: Self-Supervised Learning via Redundancy Reduction