文章目录
Facebook 2019的这篇论文提出了一种针对大规模数据的半监督图像分类算法
Abstract
目标:借助于大的无标签数据集(和原数据集较像但不同),提升一个给定目标模型(如ResNet-50)在原数据集上的分类性能
(这篇文章是前面博文里谈到的self-training的方式)
Introduction
explore web-scale semi-supervised deep learning
Web-scale: 描述了现代架构的趋势,即增长(远)大于线性速率。Web-scale系统能勾快速有效地进行处理,并避免在关键时刻需要重新架构的瓶颈问题。
弱监督学习的缺点:
- 数据标签中有大量噪声,这会损害模型的训练;
- web-scale的弱监督数据集通常符合长尾分布,这样训练的模型只对那些主要的类别有较好的表现,尾部的类别由于数据较少表现通常不好;
- 大量的弱监督数据也不容易获得。
【这里可以关注一下对类别不平衡的处理】避免长尾分布的方法是对于新数据集,每个标签选择等量图片样本。
Methods
论文提出的方法具体流程如下:
- 在精标的小数据集 D D D (数据量为M)上训练一个教师网络;
- 使用已训练的教师网络给无标签的大数据集 U U U (数据量为N)上的每个样本分配标签,对于每个类别取softmax概率从大到小排序后的Top-K个数据,得到一个新的带标签的数据集 D ^