无监督对比学习之假装自己有监督的SwAV

最新推荐文章于 2024-09-21 19:48:29 发布

不知道11已发出酷狗

最新推荐文章于 2024-09-21 19:48:29 发布

阅读量6.2k

点赞数 10

分类专栏：深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_42764932/article/details/112845236

版权

深度学习专栏收录该内容

27 篇文章

订阅专栏

SwAV是一种自监督学习方法，通过多视图聚类和软标签分配，利用不同分辨率的图像增强来提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面讲到的MOCO、SimCLR把优化的方向主要放在增加负例上，费时费力，SwAV来了个返璞归真。。
在这里插入图片描述

简要步骤

每个batch输入数据为 $x\in R^{N*C*H*W}$ , 分别经过不同的Aug，得到 $x_1, x_2$
将 $x_1, x_2$ 输入网络中，得到输出 $z_1, z_2 \in R^{N*d}$
已知K个聚类中心，表示为 $C\in R^{K*d}$ ，将输出与聚类中心计算相似度，得到相似度矩阵 $\in R^{K*N}$ ，理想情况下，样本与自己的类簇中心相似度为1，与其他的为0，其实就类似于有监督任务中的one-hot label，不过作者发现soft label效果会好一些。这样每个样本又获得了一个新的表示（Codes）。
计算损失，有了 z 和 q 之后，理论上同一张图片不同view所产生的 z 和 q 也可以相互预测，作者便定义了新的loss： $L(z_{t},z_{s})=l(z_{t},q_{s})+l(z_{s},q_{t})$
其中 $l(z_{t},q_{s})=- \sum _{k}q_{s}^{(k)}\log gp_{t}^{(k)}$
$p_{t}= \frac{exp(z_{t}^{T}c_{k}/ \tau)}{\sum _{k^{\prime}}exp(z_{t}^{T}c_{k}// \tau)}$
所以题目说SwAV像是在假装自己是有监督的。。

同时SwAV也提出了一种新的数据增强方法，将不同分辨率的view进行mix。
Multi-crop策略包括了：
（1）两个标准的RandomResizedCrop；
（2）V个额外的小views。
例如对于ImageNet数据集，如下的代码中：

nmb_crops = [2, 6]表示两个标准随机裁剪和六个小views；
size_crops = [224, 96]表示标准RandomResizedCrop后得到的尺寸为 $224 * 224$ ，小views经过RandomResizedCrop后得到的尺寸为 $96 * 96$ ；
min_scale_crops = [0.14, 0.05], max_scale_crops = [1.00, 0.14]表示小views在RandomResizedCrop时的尺度为(0.05, 0.14), 标准RandomResizedCrop时的尺度为(0.14, 1.00)。

color_transform = [get_color_distortion(), RandomGaussianBlur()]
if pil_blur:
    color_transform = [get_color_distortion(), PILRandomGaussianBlur()]
mean = [0.485, 0.456, 0.406]
std = [0.228, 0.224, 0.225]
trans = []
for i in range(len(size_crops)):
    randomresizedcrop = transforms.RandomResizedCrop(
        size_crops[i],
        scale=(min_scale_crops[i], max_scale_crops[i]),
    )
    trans.extend([transforms.Compose([
        randomresizedcrop,
        transforms.RandomHorizontalFlip(p=0.5),
        transforms.Compose(color_transform),
        transforms.ToTensor(),
        transforms.Normalize(mean=mean, std=std)])
    ] * nmb_crops[i])
self.trans = trans

SwAV进一步拉近了自监督学习方法和有监督学习的距离，离有监督学习的准确率只差1.2%。这里的SwAV在大的batch（4096）上训练了800个epochs。最终两种方法的结合带来了4.2个点的提升：
在这里插入图片描述
比较不同自监督学习方法在batch_size = 256时的表现，SwAV仍然是效果最SOTA的。

Multi-crop的作用
如下图所示，对于自监督学习方法来说，2160+496的Multi-crop策略总是比2*224的增广效果好。