文 / 研究员 Ting Chen 和 Google Research 副总裁兼工程研究员 Geoffrey Hinton
最近的 BERT 和 T5 等自然语言处理模型表明,如果预先使用大量未标记数据集进行预训练,再使用少量的标记数据集进行微调,就可以获得良好结果。同样,根据 Exemplar-CNN、实例区分、对比预测编码、AMDIM、对比多视图编码、动量对比等方法的相关文章所述,使用大量未标记图像数据集进行预训练有可能会提高在计算机视觉任务上的表现。这些方法属于自监督学习,自监督学习包含一系列技术,通过从未标记数据集中创建代理标签,进而将无监督学习问题转换为自监督学习问题。但是,当前用于图像数据的自监督学习技术非常复杂,需要对架构或训练程序进行大幅修改,并且尚未得到广泛应用。
BERT 模型
https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.htmlT5 模型
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
在《视觉表征对比学习的简单框架》(A Simple Framework for Contrastive Learning of Visual Representations) 中,我们阐述了一种方法,可简化并改进先前针对图像的自监督表征学习。我们提出的框架名为 SimCLR,可大幅提升自监督和半监督学习的效果 (SOTA),并能以数量有限的类别标记数据达到新的图像分类记录(使用 ImageNet 数据集中 1% 的标记图像,top-5 准确率可达 85.8%)。此方法非常简单,我们可轻松将其整合到现有的监督学习流水线中。在下文中,我们会先介绍 SimCLR 框架,然后探讨在开发 SimCLR 期间发现的三个结论。
视觉表征对比学习的简单框架
https://arxiv.org/abs/2002.05709
SimCLR 框架
首先,SimCLR 使用未标记数据集,学习 图像的通用表征,然后使用少量的标记图像进行微调,从而出色地完成给定的分类任务。SimCLR 可使用称为 对比学习 (Contrastive Learning) 的方法,将同一图像的不同转换视图间的一致性升至最高,同时将不同图像的转换视图间的一致性降至最低,从而习得 通用表征。使用此对比目标升级神经网络参数会对应视图的表征造成互相“吸引”,而非对应视图的表征则互相“排斥”。
首先,SimCLR 从原始数据集中随机选取样本,结合几种简单增强方法(随机裁剪、随机颜色失真和高斯模糊)将每个样本转换两次,从而创建两组对应视图。对单个图像进行这些简单转换的基本原理如下:
我们想要实现转换