Abstract
我们调查和改进自我监督,作为ImageNet预培训的替代品,重点是自动化着色作为代理任务。与其他传统的无人监督的学习方法相比,自我监督的训练显示出更有利于利用未标记的数据。我们在这个成功的基础上,在多个环境中评估自我监督网络的能力。在VOC分段和分类任务中,我们提出了不使用ImageNet标签进行预处理表示的方法中的最新技术。
此外,我们首先通过着色对自我监督进行了深入的分析,得出结论:损失的形成,培训细节和网络架构在其有效性方面发挥重要作用。通过重新思考ImageNet预训练范式进一步扩大了这一调查,提出了以下问题:需要多少训练数据?需要多少个标签?fine-tuning后feature有多大改变?我们将这些问题与自我监督联系起来,显示着色可以提供与各种风味的ImageNet预培训相似的强大监控信号。
1. Introduction
深入的前馈网络的成功植根于他们扩大更多培训数据的能力。 更多数据的可用性通常可以提高模型复杂性。 然而,这种昂贵,乏味和容易出错的人工标注的数据的需要是严重的限制,降低了为新领域建立模型的能力,以及注释特别昂贵的域(例如,图像分割)。 同时,我们可以获得大量的未标注的视觉数据,这基本上是免费的。 这项工作是试图改善利用这种丰富的手段。 我们设法使使用标签数据的结果更接近一步,但自我监督的最终长期目标可能是完全取代监督的预训练。
不需要标签数据的监督培训的替代方案取得有限的成功。 无监督的学习方法,例如通过最小化重建误差训练的压缩嵌入,在图像合成中已经取得了更多的成功[18],和表示学习相比来说。 半监督学习,联合培训监督和无监督的损失,提供了中间地带[7,35]。 然而,最近的作品倾向于倾向于顺序组合(无监督的预训练,监督微调)[4,5],可能是因为它阻止了无人监控的损失在训练的后期受到破坏。 与无监督学习相关的努力正在开发出较弱形式监督工作的model[2,40]。 这样就减少了人力负担,并且在模型性能上付出了代价。
最近,自我监督已经成为无监督学习的新风味[4,38]。
关键的观察是,标签数据的一部分好处可能是导致使用discriminative的损失。 这种类型的损失可能更适合于表示学习,而不是例如重建或基于可能性的损失。 自我监督是通过将每个输入样本分成两部分来预测部分关联的方式,对未标记的数据使用歧视性损失。 我们专注于自我监督的着色[20,42],其中每个图像被分解为其强度和颜色,使用前者预测后者。
我们对自我监督的主要贡献是:
在不使用ImageNet标签的方法中,VOC 2007分类和VOC 2012分段的最先进的结果。
第一次通过着色深入分析自我监督。 我们研究损失,网络架构和培训细节的影响,显示影响结果的重要方面有很多。
对ImageNet预训练的各种规划(构想)进行实证研究,以及如何与自我监督相比较。