目录
ImageNet accuracies of linear classifiers
ImageNet accuracy of models trained with few labels
首先还是论文的相关信息
Paper: A simple framework for contrastive learning of visual representations
地址: http://arxiv.org/abs/2002.05709
主要思想
SimCLR是self-supervised learning与contrastive learning中重要的一个相当重要的里程碑,其最大的特点在于研究各种数据增强 (data augmentation) 作为SSL的归纳偏置 (inductive bias),并利用不同data间彼此的互斥强化学习目标,避免contrastive learning的output collapse。
整体运作概念分为三个阶段:
- 先sample一些图片(batch of image)
- 对batch裡的image做两种不同的data augmentation
- 希望同一张影像、不同augmentation的结果相近,并互斥其他结果。
如果要将SimCLR的架构划分阶段,大致可以分成两个阶段,首先是大个embedding网络执行特征抽取得到y,接下来使用一个小的网络投影到某个固定为度的空间得到z。
附:作者提供的伪代码
讨论
这个小网络投影也是SimCLR的另一个特点。对于同一个x,用data augmentation得到不同的v,通过网络抽取、投影得到固定维度的特征,计算z的contrastive loss,直接用gradient decent同时训练两个阶段的网络。
SimCLR的方法虽然简单,但是一个麻烦的点在于需要大量的online负样本提供斥力。在论文中使用了4096的batch size,还需要为了特别大的batch使用LARS作为optimizer。
结果
ImageNet accuracies of linear classifiers
ImageNet accuracy of models trained with few labels
Comparison of transfer learning performance of our self-supervised approach with supervised baselines
原文链接
Reference
[1] A Simple Framework for Contrastive Learning of Visual Representations [ICML 2020]