发表信息
2019年,Facebook
所属领域
半监督学习
文章方法
主要目的
借助非标注数据,提升现有模型效果
方法概述
采用了teacher/student的学习机制,借助了billion级别的unable data和相对小数量级的label data,提升了当前已有模型在图像分类任务上的效果
提出背景
- 2018年,也是Facebook,提出了weakly supervised方向的研究“Exploring the Limits of Weakly Supervised Pretraining”,采用billion级别的weakly supervised data(图像有hashtag标签,图像来源是Instagram)
- 本方法受启发于好几个方向:self- training, distillation, or boosting.
方法介绍
- 所用数据:
大量无标签+相对少量的有标签。
(billions of unlabeled images along with a relatively smaller set of task-specific labeled data)
- 具体流程:
-
在labeled data 数据集上A训一个teacher model
-
用teacher对unlabeled data打伪标签,对每一类class进行数据选择(根据伪标签prediction排序,再选top-K images),构建一个新的训练集B
-
在数据集B上训一个student模型,作为pre-train,student的模型规模比teacher要小
-
在label data数据集A上,fine-tune这个student模型
- 方法变式:
文章结论
在文章的第二页有一个table 1,罗列了6点文章作者对大规模半监督学习过程的建议,浓缩了文中多项实验的精华,非常值得细品:
本人详细解读如下:
方法优势
-
相比于weakly supervised方法
-
避免了数据长尾分布(long-tail distribution)问题。本方法对unlabeled data打标后手动选择,可以人工决定数据量和分布(selecting same number of images per label),避免了不同类别数量不均匀的问题
-
weakly supervised 的噪声问题。文章提到“significant amount of inherent noise in the labels due to non-visual, missing and irrelevant tags which can significantly hamper the learning of models”
方法亮点
- 数据规模大
第一次在半监督学习中利用billion级别的无标签数据。(“semi-supervised learning with neural networks has not been explored before at this scale.”)