A Brief Introduction to Weakly Supervised Learning 论文总结

目录

论文详情

摘要

前言

Incomplete Supervision(不完全监督)

Active Learning(主动学习)

Semi-Supervised Learning(半监督学习)

Cluster Assumption(集群假设)

Manifold Assumption(流形假设)

Inexact Supervision(不精确监督)

Inaccurate Supervision(不准确监督)

总结


论文详情

论文标题:A Brief Introduction to Weakly Supervised Learning

论文作者:Zhi-Hua Zhou

发表时间:2018年1月

发表刊物:National science review

原文链接:brief introduction to weakly supervised learning | National Science Review | Oxford Academic

摘要

监督学习技术通过从大量训练样本中学习来构建预测模型,每个训练样本都有一个标签指示其真实的输出。尽管当前的技术已经取得了很大成功,但值得注意的是,在许多任务中,由于数据标注过程成本高昂,难以获得强监督信息,如完全的真实标签。因此,期望机器学习技术能够处理弱监督。本文回顾了弱监督学习的一些研究进展,重点讨论了三种典型的弱监督类型:不完全监督(只有一部分训练数据被标注);不精确监督(训练数据只给出粗略标签);不准确监督(给定的标签不总是准确的真实标签)。

前言

在实际训练模型的过程中,使用的数据可能会因标注成本高昂,数据匮乏等情况而出现无法正常实现强监督的目标,这个时候就需要弱监督学习技术来解决这个问题。本文作者主要讲了三种弱监督学习类型,它们分别为:不完全监督(incomplete supervision),不精确监督(inexact supervision),不准确监督(inaccurate supervision),而这三种弱监督学习类型又有很多实现方法。

Incomplete Supervision(不完全监督)

Incomplete Supervision主要用于只有少量标注数据的情况。一般这种方法的目的是,让模型学习到一个 X 到 Y 的对应关系,在计算机视觉的背景下,X可以粗略的理解为给出的图片,而Y可以理解为这张图片相关的标签。

有了这个前提,Incomplete Supervision的训练数据集就可以表示为D ={(x1, y1), . . . , (x_l, y_l),  x_{l+1}. . . , x_m}, 其中有括号的就是代表有标注的部分(在文中也叫“labeled data”),没有括号的就是没标注的部分(在文中叫“unlabeled data”)。

为了解决这个问题,有两种主流的技术分别是active learning和semi-supervised learning。

Active Learning(主动学习)

Active Learning简短来说就是通过现有的labeled data来挑选最有价值的unlabeled data,然后人为给这些有价值的unlabeled data进行标注,然后将这些新标注的数据作为labeled data重新训练,更新模型,如此往复迭代。

下面是Active Learning的流程图,方便理解

 

Semi-Supervised Learning(半监督学习)

semi-supervised learning方法与active learning的最大不同就是这个方法不需要人为标注label。

对于这个方法,作者给出了一个直观的例子

假设有一个正负的预测问题,如图所示

 test data point位于+和-的中间,所以无法分类,但是如果我们观察其他一些没有被标记的点,也就是右图中的灰点就可以初步判断,这个点更有可能属于+的部分。

这里也有两种假设,分别是cluster assumption和manifold assumption

Cluster Assumption(集群假设)

这种方法假设数据集有多个集群(可以理解为点聚集的高密度区域),不同类别的样本一般都位于某个集群区域中,而且这些集群区域之间是被低密度区域隔开的(可以理解为离散的点)。

Manifold Assumption(流形假设)

流体假设认为,高维数据实际上存在于低维流形上,这意味着虽然数据表面上看起来复杂的分布在高维空间中,但是它们是由一个低维度结构生成的。而且,数据的类别标签在低维流形上是平滑变化的,也就是说在流形上相邻的点可能属于同一类别。

下面是semi-supervised learning的流程图

Inexact Supervision(不精确监督)

Inexact supervision使用的场景是给出的训练数据有标签,但是标签不准确的情况。

Inexact Supervision任务的训练数据集可以表示为D = {(X_1, y_1), . . . , (X_m, y_m)},这里的每一个X都是一个"bag",这里面每一个"bag"里面都有多个实例,y_i表示的就是实例的标签,如果一个bag是正包,那么代表这个包里面至少有一个实例x是正例,但是不知道这里面哪一个x是正例。如果一个包是负包,那么这个包里面的实例x全部都是负例。

在训练过程中,模型学习的就是如何基于包中的多个实例集合来做预测,这也就是多实例学习

Inaccurate Supervision(不准确监督)

Inaccurate supervision使用的情景是数据包标注不准确的情况。

这里的基本思想就是识别潜在的错误标记实例,然后尝试进行校正。

假如有一个图,这个图中每一个节点表示一个训练实例,链接两个具有不同标签的节点的边叫做切割边(cut edge),如果一个实例跟很多cut edge相连,那么这个实例就可以被认为是可以的,需要被删除或者重新标记。就像下图所示

 但是这种方法在高维空间中不是很管用,这是因为在高维空间中数据更加稀疏,这样会导致领域的识别不是很可靠。

 

总结

上面提到的三种使用的弱监督学习方式只是理想的情况,在实际的训练过程中往往是几种情况同时出现。

总之,无论是哪一种情况都离不开弱监督学习的方法,这种方法也变得越来越重要。

  • 18
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值