【译文】伪标签学习导论 - 一种半监督学习方法

伪标签学习导论 - 一种半监督学习方法

作者 SHUBHAM JAIN

译者 钱亦欣

引言

在有监督学习领域,我们已经取得了长足的进步,但这也意味着我们需要大量数据来做图像分类和销量预测,这些算法需要把这些数据扫描一遍又一遍来寻找模式。

.然而,这其实不是人类的学习方法,我们的大脑不需要成千上万的数据循环往复地学习来了解一类图片的主题,我们只需要少量的特征点来习得模式,所以现有的机器学习方法是有所缺陷的。

好在现有已经有一些针对这个问题的研究,我们或许可以构建一个系统,它只需要最少量的监督数据输入但能学得每个任务的主要模式。本文将会介绍其中一种名为伪标签学习的方法,我会深入浅出的讲解原理并演示一个案例。

走起!

注:我既定你已经对机器学习又基本了解,如果没有请学习相关知识再看本文。

目录

  1. 什么是半监督学习 (SSL)?
  2. 如何利用无标签数据
  3. 伪标签学习
  4. 半监督学习的应用
  5. 采样率的作用
  6. 半监督学习的应用场景

1. 什么是半监督学习 (SSL) ?

假设我们目前面临一个简单的图像分类问题,我们的数据有两类标签(如下所示)。

img

我们的目标就是区分图像中有无日食,现在的问题就是如何仅从两幅图片的信息中构建一个分类系统。

一般而言,为了构建一个稳定的分类系统我们需要更多数据,我们从网上下载了更多相关图片来扩充我们的训练集。

img

但是,如果从监督学习的方法出发,我们还要给这些图片贴上标签,因此我们要借助人工完成这个过程。

img

基于这些数据运行了监督学习的算法,我们的模型表现显著高于那个仅基于两张图片的算法。

但是这个方法只在任务量不大的时候起效,数据量一大继续人工介入会消耗大量资源。

为了解决这一类问题,我们定义了一种名为半监督学习的方法,能从有标签(监督学习)和无标签数据(无监督学习)中共同习得模式。

img

来源: 链接

因此,现在就让我们学习下如何利用无标签数据。

2. 如何利用无标签数据?

考虑如下的情形

img

我们只有分属两个类别的两个数据点,途中的线代表着任意有监督模型的决策边界。

现在,让我们再途中加一些无标签数据,如下所示。

img

图片来源: 链接

如果我们注意到两幅图的差异,我们就可以发现有了无标签数据后,两个类别的决策边界变地更加精确了。

因此,使用无标签数据的优点如下:

  1. 有标签数据往往意味着高成本和难以获得,但无标签数据量大又便宜。
  2. 通过提高决策边界的精确性,它们能提高模型的稳健性。

现在,我们对于半监督学习已经有了直观的认识,当然这个领域也有许多种方法,本文就介绍其中的伪标签学习法。

3. 伪标签学习

这一技术,让我们不必再手工标注无标签数据,我们只需要基于有标签数据的技术来给出一个近似的标签,我们把这个过程分成多个步骤逐一介绍。

img
来源: 链接

我假设你已经看懂了上图的流程,第三步训练的模型将会用来给测试集分类。

为了让你有更好地理解,我会结合一个实际问题来讲解原理。

4. 半监督学习的应用

此处我们使用 Big Mart Sales 问题作为例子。我们先下载这个数据集并做一些探索。

先加载一些基础的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.preprocessing import LabelEncod
  • 9
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值