1. 摘要
- 主动学习通过选择有代表性的或者信息丰富的样本减少人工标注。自监督训练从大量的无标注样本学习特征然后在少许有标注样本上调参。当前工作重点在于这两个方法能否相互受益,本文在目标识别数据CIFAR10/100和Tiny ImageNet做了实验,结果表明在减少标注耗时上自监督训练比主动学习更有效。但是当标注预算较高时,两者的结合是有益的。当近几乎一半的数据集被标记时,主动学习与自我训练或从头开始训练之间的性能差距就会缩小。
2. 引言
- 主动学习可以被划分为两个子领域。基于信息量的方法的目的是识别那些数据样本,对于这些样本来说算法是最不确定的。将这些样本添加到标注数据池中可以改善算法性能。基于代表性的特征方法旨在以这样的方式标记数据,即对于所有未标记的数据,都有一个“代表性”(基于特征空间中的距离定义)标记样本。主动学习方法通常通过仅在标记的数据池上对网络进行监督训练来评估:获得最佳结果。
- 自监督训练主要的进展来自于最近的一系列工作,这些工作学习的表征对于输入数据的一系列扭曲(如剪裁、应用模糊、翻转等)是不变的。在这些方法中,产生了图像的两个扭曲的版本,称为视图。然后,通过强制要求两个视图的表征相似来训练网络。为了防止这些网络收敛到一个无效解,已经开发了不同的方法。
- 自监督学习可以学习高质量的特征,这些特征几乎与监督方法学习的特征相同。