SSL论文笔记:Billion-scale semi-supervised learning for image classification


Facebook 2019的这篇论文提出了一种针对大规模数据的半监督图像分类算法

Abstract

目标:借助于大的无标签数据集(和原数据集较像但不同),提升一个给定目标模型(如ResNet-50)在原数据集上的分类性能

(这篇文章是前面博文里谈到的self-training的方式)

Introduction

explore web-scale semi-supervised deep learning

Web-scale: 描述了现代架构的趋势,即增长(远)大于线性速率。Web-scale系统能勾快速有效地进行处理,并避免在关键时刻需要重新架构的瓶颈问题。

弱监督学习的缺点:

  • 数据标签中有大量噪声,这会损害模型的训练;
  • web-scale的弱监督数据集通常符合长尾分布,这样训练的模型只对那些主要的类别有较好的表现,尾部的类别由于数据较少表现通常不好;
  • 大量的弱监督数据也不容易获得。

【这里可以关注一下对类别不平衡的处理】避免长尾分布的方法是对于新数据集,每个标签选择等量图片样本。

Methods

论文提出的方法具体流程如下:

  1. 在精标的小数据集 D D D (数据量为M)上训练一个教师网络;
  2. 使用已训练的教师网络给无标签的大数据集 U U U (数据量为N)上的每个样本分配标签,对于每个类别取softmax概率从大到小排序后的Top-K个数据,得到一个新的带标签的数据集 D ^
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值