【无监督】3、SimCLRv1 | 一个非常简单的对比学习框架

最新推荐文章于 2024-09-09 08:54:27 发布

呆呆的猫

最新推荐文章于 2024-09-09 08:54:27 发布

阅读量367

点赞数

分类专栏：无监督学习文章标签：对比学习

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/132351692

版权

无监督学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

在这里插入图片描述

文章目录

论文：A Simple Framework for Contrastive Learning of Visual Representations

代码： https://github.com/google-research/simclr

出处：ICML 2020 | Hinton 大佬 | Google

贡献：

证明不同数据增强的结合很重要
在特征表达和 contrastive loss 之间引入了可学习的非线性 transformer 结构，取得了很大的效果提升
在大的 batch size 和大的 epoch 的加持下对比学习能获得比有监督学习更好的效果

效果：

使用自监督对比学习的方式训练 ImageNet 提取特征后，训练了一个线性分类器，就获得了 76.5% top-1 acc，比当时的 SOTA 高 7%，和有监督基线网络 ResNet50 获得了同样的效果

一、背景

目前来说，大致有两个不同的路线来做无标签的视觉特征提取，分别是 generative 和 discriminative，也就是生成式和判别式

生成式的方法是学习如何生成和输入空间相同的像素，但是 pixel-level 的生成计算量很大而且没有很强的特征表达意义
判别式的方法是使用目标函数来判断两个输入是否来源于同一个数据，一般都是需要使用代理任务来对同一输入生成不同的样本，所以代理任务如果用的不好，有可能会限制模型的泛化性。

基于判别式的方法在目前取得了 SOTA 的效果（如 MOCO），所以本文作者为了探究其原因，就做了一些探索和实验，并且证明了下面这几个结论：

在代理任务中，结合使用多种不同的数据增强方式能得到更好的特征表达，而且数据增强为无监督对比学习带来的效果提升大于有监督学习
作者在特征表达的计算 contrastive loss 之间引入了一个可学习的非线性 transformer，能很大程度的提高模型效果
对特征进行归一化更有利于使用 contrastive cross entropy 学习的方法
自监督学习需要更大的 batch size 和更长的训练时间（相比有监督学习而言）

作者正式结合了上面的几种发现，所以才构建了一个简单的网络框架 SimCLR

二、方法

2.1 对比学习框架

在这里插入图片描述

SimCLR 是通过最大化同一样本的不同视角在特征空间中的一致性来学习的，网络结构如图 2 所示

首先，给定一个输入样本 x，作者使用数据增强来生成两个图片，这两个图片就是一对 positive pairs。

本文中会顺序的使用 3 种数据增强：random cropping → resize 回原来的尺寸 → random color distortion →随机高斯噪声。因为作者通过实验发现 random crop 和 color distortion 的结合能取得最好的效果。
然后，使用基础 encoder $f (.)$ 来抽取数据的特征，这里的 encoder 选择的是 ResNet
接着，对得到的特征使用 projection head $g (.)$ 来将特征映射到 contrastive loss space。这里的 $g (.)$ 是有一层隐藏层的 MLP。这里的 $g (.)$ 是非线性的，因为使用了 ReLU 激活函数。
最后，在最终的特征上进行对比预测任务，使用的是对比学习 loss，也就是在给定一堆经过变换后的样本，模型要能通过给定的 $x_i$ 识别出其对应的正样本 $x_j$

对比学习具体是怎么学习的呢：

首先，假设一个 batch 输入了 N 个 samples，经过代理任务后，就能得到 2N 个 augumented samples
然后，使用 $f (.)$ 和 $g (.)$ 进行对应的特征提取，得到 $z_i$ 和 $z_j$
接着，计算对比学习 loss，对于一个样本 $z_i$ ，只有一个正样本 $z_j$ ，其余所有的 2(N-1) 个 augumented samples 都是负样本，所以样本 i 对应的 loss 函数如下，分母是剔除了 i 自己，sim 表示点乘， $\tau$ 表示温度参数

SimCLR 的整体过程：

这里为什么是 2k-1 次呢，因为一个 sample 得到的两个 aug samples 都是当前 batch 内的样本，所以每个样本都会和其他所有的样本计算 loss，i 和 j 计算一次，j 和 i 也会计算一次，所以每个样本都会计算 2k-1 次 loss。然后最后的 L 也除以 2 了，因为每个样本都计算了 2 次。

在这里插入图片描述