自监督 ResNets 能否在 ImageNet 上没有标签的情况下超越监督学习?
在本文中将介绍最近一篇推动自监督学习状态向前发展的论文,该论文由 DeepMind 发表,绰号为 ReLICv2。
Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改进,该论文名为“Representation learning via invariant causal mechanisms”。他们方法的核心是增加了 Kullback-Leibler-Divergence 损失,这是使用经典对比学习目标的概率公式计算的。除此以外还引入了一种新颖的增强方案,并借鉴了其他相关论文的经验。
本文尽量保持简单,以便即使是没有先验知识的读者也可以跟进。
01 计算机视觉的自监督和无监督预训练
在深入研究论文之前,有必要快速回顾一下自监督预训练的全部内容。如果你对自监督学习有所了解,或者熟悉自监督预训练,可以跳过这一部分。
一般情况下计算机视觉模型一直使用监督学习进行训练。这意味着人类查看图像并为它们创建各种标签,模型可以学习这些标签的模式。例如,人工注释者会为图像分配类标签或在图像中的对象周围绘制边界框。但任何接触过标签任务的人都知道,创建足够的训练数据集的工作量很大。
相比之下,自监督学习不需要任何人工创建的标签,模型自己监督自己学习。