©PaperWeekly 原创 · 作者|燕皖
单位|渊亭科技
研究方向|计算机视觉、CNN
回顾过去一年左右的自监督学习领域的最重要发展,那么会发现很多优秀的作品:MoCo v1 和 v2,SimCLR v1 和 v2,BYOL。本文先对自监督表示学习进行一般性介绍,随后重点介绍这几种自监督学习方法。
Representation Learning
▲ Representations: The input image (224 x 224 x 3) is passed through a feature extractor (typically a trained CNN network) that non-linearly transforms the spatial features of the image to a vector space of dimension 512.
计算机视觉中的表征学习是从原始数据中提取特征。特征提取涉及将原始数据处理到向量空间中,捕获表示该数据的基础时空信息。
在计算机视觉中,表征学习算法可分为两类:
监督学习(Supervised learning):利用大量的标注数据来训练神经网络模型,完成模型训练之后,不直接使用分类的 fc 层的输出,而是其前一层的输出作为 Representation 用于下游任务。
自监督学习(Self-Supervised Learning):利用大规模的无标注的数据,选择合适的辅助任务(pretext)和自身的监督信号,进行训练,从而可以学习到 Representation 用于下游任务。
Self-Supervised Learning
自监督学习的思想来源于自然语言处理(NLP)领域。在 NLP 中,一个大的未标记语料库通过表征学习抽取每个语料的表征,也就是将高维空间稀疏的表示转换为低维空间稠密的表示,然后再使用稠密的表示完成下游任务的训练。
而基于深度学习的计算机视觉任务面临的一个主要问题是大量数据处理的问题。为了获得良好的结果,通常需要标记大量的数据。在许多情况下,大量的标记是很麻烦的,所以自监督学习被用来作为一个解决方案来克服这一点。
现有的自监督学习通常分为两大类,生成方法(Generative Methods)和对比方法(Contrastive Methods)。生成方法专注于像素空间的特征,其过于关注像素细节,难以建立空间关联和结构。
而对比方法通过正面和负面的例子来学习表征。尽管不是全新的思路,但其在计算机视觉任务中取得了较快的发展。通常自监督的对比方法也称为自监督对比学习。
Contrastive Learning
3.1 Contrastive Loss(InfoNCE)
对比学习的核心思想是最大化相似性和最小化差异性的损失。先定义:
Query (q):待查询的图像
Positive sample (k₊):与 query 相似的样本
Negative sample (k₋):与 query 不相似的样本
Van den Oord et al.提出了一种称为 Noise Contrastive Estimation (InfoNCE) 得损失函数,如下:
这里的 q 是 encoded query 向量,而包含 encoded keys 的字典 k 记做