【论文笔记】A brief introduction to weakly supervised learning

本文介绍了弱监督学习的三种主要类型:不完全监督、不精确监督和不准确监督。不完全监督通过主动学习和半监督学习来处理有限的标签数据;不精确监督如多实例学习处理粗粒度标签;不准确监督涉及处理错误标签,通过数据修正和众包方法来纠正。文章探讨了各种方法的优缺点及应用场景。
摘要由CSDN通过智能技术生成

INFORMATION SCIENCE 2018
Zhi-Hua Zhou


1.Abstract(摘要)

Supervised learning techniques construct predictive models by learning from a large number of training examples, where each training example has a label indicating its ground-truth output. Though current techniques have achieved great success, it is noteworthy that in many tasks it is difficult to get strong supervision information like fully ground-truth labels due to the high cost of the data-labeling process. Thus, it is desirable for machine-learning techniques to work with weak supervision. This article reviews some research progress of weakly supervised learning, focusing on three typical types of weak supervision: incomplete supervision, where only a subset of training data is given with labels; inexact supervision, where the training data are given with only coarse-grained labels; and inaccurate supervision, where the given labels are not always ground-truth.
Keywords: machine learning, weakly supervised learning, supervised learning


2.Introduction(介绍)

机器学习取得很大成功,尤其在监督学习,例如分类和回归。训练样本包括两个部分:描述一个物体的特征向量和指出真值输出的标签。在分类任务,标签表示训练样本属于的类别;在回归任务,标签所对应的实数值。但是,因为数据标注的高成本,很难获得高监督的信息。因此,能够在机器学习中在弱监督下工作是被期望的。

有三种弱监督的类型:

  • 不完全监督(incomplete supervision),即只有训练数据的很小一部分是带有标签的(很常见,例如图像分类能找到大量图片但只有部分有标签)。
  • 不精确监督(inexact supervision),即只提供粗粒化标签(图像分类中,我们希望所有对象都被标注,但是我们一般只有图像级标签)。
  • 不准确监督(inaccurate supervision),即给的标签不总是都是真值(存在情况发生,例如数据标记员粗心或故意或很难分类)

弱监督学习是一个综合术语,涵盖了各种试图通过弱监督学习来构建预测模型的研究。这篇文章将会探讨这三种弱监督的研究方向上的一些进展。文章将三种情况分开讨论,但是在实际情况下经常一起出现。为了方便,这篇文章只讨论二元分类。

3.Incomplete supervision

不完全监督主要关心的是我们只给了很小部分标签数据,不能够训练出一个好的学习者,当存在大量的未标签数据。

两个主要的技术:主动学习(active learning)和半监督学习(semi-supervised learning)。

  • 主动学习假设有一个可以被询问来让挑选出的未标签的实例得到真值标签的学者(oracle)。
  • 半监督学习尝试去自动探索未标签的数据,以此提高没有人类干预的学习表现。
  • 有种特殊的半监督学习类别叫做直推式学习(transductive learning)。
    • 它与纯半监督学习的区别在于测试数据的不同假设,即被训练模型预测的数据。
    • 直推式学习是一个封闭世界的假设,即测试数据被提前提供和目标是去优化在测试数据中的表现;换句话说,未标签数据就是测试数据。
    • 纯半监督学习是一个开放世界的假设,即测试数据不知道和未标签数据不一定是测试数据。 

 

3.1With human intervention(有人类干预)

技术:主动学习

假设:有个能够回答真言的神灯/标记成本只取决于询问的数量

目标:最小化询问数量(挑选最优价值的未标签实例)→训练一个好的模型标记成本的最小化

挑选标准:信息性(informativeness)和代表性(representativeness)。

①信息性:

  • 信息性测量一个未标签实例帮助减少一个统计模型的不确定性的好坏
  • 基于信息性的代表性方法:不确定性抽样(uncertainty sampling)和询问委员会(query-by-committee
    • 不确定性抽样:训练一个简单的学习者,然后询问学习者有很少置信度(the least confidence)的未标签实例
    • 询问委员会:生成多个学习者,然后询问学习者最不同意(disagree the most)的未标签实例
  • 基于信息性的方法主要缺点:为了建立初始模型去挑选询问的实例,太依赖有标签的数据。当只有很少很少的标签样本可以用时,模型表现时不牢固的。

②代表性:

  • 代表性测量一个实例帮助让输入模块的结构更具代表性的好坏
  • 基于代表性的主要方法:开发一个未标签数据的聚类结构,通常是通过一个聚类方法。
  • 基于代表性的方法的缺点:表现非常依赖于未标签数据形成的聚类结果。

所以,现在主动学习方法尝试平衡信息性和代表性

理论研究:

  • 可实现的情况(realizable case)(在假设类中存在数据可完全分离假设),利用主动学习的方法,样本的复杂度可以获得指数提升。
  • 对于不可实现的情况(unrealizable case)(在假设类中不存在任何假设可以将数据完全分离)
    • 没有关于噪声模型的假设,主动学习的上界与下界相匹配,即主动学习没有什么用。
    • 假设Tsybakov噪声模型,对于有界噪声,主动学习可获得指数级的提升。
    • 如果能够开发一些特殊的数据特征,例如多视图,主动学习对于无界的噪声依然可用获得指数级的提升。

总之,即使对于很困难的情况,通过精妙的设计主动学习依然能获得提升

3.2Without human intervention(没有人类干预)

技术:半监督学习(无需人工的参与,自动开发无标注的数据)

建立预测模型:如果一个测试数据刚好位于正例和负例正中间,我们只能随机猜测一个值作为标签。此时如果我们允许观测一些未标记数据点,比如图中的灰色点,那么就可以预测出测试数据的标签值为正值

两个基本假设:聚类假设(the cluster assumption)和流形假设(the manifold assumption

  • 聚类假设数据具有固有的聚类结构,所以实例落到相同的聚类有相同的分类标签
  • 流行假设数据依赖于流行,所以相近的实例有相同的预测
  • 两种假设都依赖于相似的数据点有相似的输出,因此无标注的数据对相似点的发现有帮助。

四种半监督学习方法的分类:生成式方法(generative methods),基于图的方法 (graph-based methods),低密度分离方法(low-density sepa-ration methods)和基于分歧的方法(disagreement-based methods)。

  • 生成式方法:假设标签数据和未标签数据都由相同固定的模型生成。所以,未标签实例可以看成丢失的模型参数和被EM算法评估。这些方法通过不同的生成模型拟合数据。为了获得良好的性能,人们通常需要领域知识来确定一个足够的生成模型。也有人尝试结合生成性方法和判别式方法的优点
  • 基于图的方法:构建一个图,节点是实例,边是实例之间的关系。根据一些标准,图上可以增加标签信息。这个表现很依赖于图的构建。这种方法的存储和计算复杂度大,所以他们难测量,此外,他们具有固有的可传感器,因为如果没有图的重建,很难适应新的实例。
  • 低密度分离方法:强制将分类边界穿过输入空间的低密度区域。最具代表性的是S3VMs。 

  • 基于分歧的方法:生成多个学习者,让他们协作开发未标签数据,学习者之间的差异是让学习进程继续的关键。最具代表性的是协同训练(co-training)。它从两个不同的特征集(或称为两个不同的视角(views))训练了两个学习器。在每一次迭代过程中,每一个学习器选取它最自信预测的未标记实例,将这些实例的预测结果作为伪标签(pseudo-labels)来训练它的伙伴学习器(peer learner)。如果一些未标记数据在每个学习器上都没自信或都很有自信但相互矛盾,可以选出来进行询问

利用未标记的数据自然会导致不止一个模型选项,而不充分的选择可能会导致性能不佳。使半监督学习“更安全”(safer)的基本策略是优化选项中最坏情况下的性能,可能是通过合并集成机制。

4.Inexact supervision(不精确监督)

不精确监督主要关心一些监督信息提供但是没有希望的精确。

典型情况:只有粗粒度标签信息(例如,在活性药物预测中,我们需要的是特殊形态的分子标签,但我们只有总的分子可以不可以制药的信息,不知道形态)

方法:多实例学习(multi-instance learning)

  • 任务:从一个训练数据集D学习,取出m个数据为一个包Xi,每一个数据是一个实例,如果存在x是积极(positive)的而且是未知的,那么Xi是一个积极(positive)的包
  • 目标:为没见过的包预测标签

多实例学习中有效的算法已经被开发出来,实际上绝大部分监督学习算法都是多实例学习的等价体

  • 大部分算法是调整单一实例的监督学习为多实例表征,主要通过将关注点从实例调整到bags。
  • 一些算法尝试将多实例表现(multi-instance representation)通过表现传导(representation transformation)调整到单实例(single-instance)算法。
    • 一个将算法分组到实例空间中的分类,其中聚合实例水平(instance-level),在包空间(bag-space)中,包被视作一个整体,在嵌入式空间范式中,学习是在嵌入式特征空间中进行的。

注意,实例都是独立同分布(iid)的样本,但是有工作表明多实例学习中的实例不被认为是iid的样本,即使包是iid的,基于这个观点,一些有效的算法被开发出来。

多实例学习成功应用到不同的场景中。

一个包生成器表示着实例如何生成包。包生成器对性能有重大影响。一项工作表明一些简单的密集采样袋生成器比复杂的袋生成器性能更好。

多实例学习的原始目的是预测未知包的标签,也有一些工作用于识别关键实例(key instance)和使包是positive。这有助于无细粒度标注的训练数据用于定位图片的区域

标准的多实例学习是假设每个positive bag必须包含一个关键实例,然而有研究表明没有关键实例,且每个实例都贡献于bag label,或假设有多个concepts,当bag包含的实例满足所有的concept,则这个包是positive。

 早期理论表明,多实例学习在bag中每个instance分类规则不同的异构情况下学习是困难的,但在bag中instance是通过相同规则分类的同构情况下是可学习的。这些分析假设在bag中的instance是独立的,如果没有独立假设的话,问题会变得更加具有挑战性。

和蓬勃发展的算法和应用研究相比,多实例学习成果较少,因为其分析是非常难的。

6.Inaccurate supervision(不精确监督)

不准确监督关注监督信息不总是为真值,换句话说,一些标签信息可能是错误的。

典型的场景:在噪声中学习(learn with label noise

实践的基本思想:辨别潜在错误的标签样本,然后尝试修正

方法1:数据修正方法(a data-editing approach

  • 构建一个相对邻域图,每个样本是一个节点,连接两个具有不同标签节点的边称为切边。则切边的权重是可以被衡量的,直观来说如果一个节点和很多切边相连,那么是可疑的

方法2:众包方法(crowdsourcing

  • 通过众包方式将工作外包给个人
  •  一个特别的众包系统:Amazon Mechanical Turk
    • 这些工作者(workers)通常来自一个大的社群,每人会接很多任务,他们通常是相对独立且成本较低的,他们会基于自己的判断对样本进行标注。在工作者中,有些可信有些不可信,因此使用人群标注的不准确信息来维持模型的表现是重要的。
    • 许多研究尝试推测人群标注的真实标签,主要是投票的方法,在集成学习的理论支持下,其广泛应用,且效果不错,通常作为基线(baseline)。预期如果可以对工人质量和任务难度进行建模,则可以实现更好的效果,对不同的任务针对不同工人给予不同权重。为此一些方法尝试构建概率模型,和使用EM算法进行预测,还是用了极大极小熵原理,发送垃圾信息者(spamers)可以通过概率模型来消除,还有一些淘汰低素质工人的理论条件。
  • 众包通常用来收集标签,而使用这些数据进行学习的模型性能比标签本身的质量更重要。
    • 有许多研究介绍如何向弱教师或众包标签进行学习,这和带噪学习密切相关其中的区别是,在众包中一个样本往往可以反复标注。
    • 因此,考虑节省成本的效果至关重要,并给出了最少数量众包标签的上限,即有效众包学习所需的最小成本。
    • 许多研究设计任务分配和预算分配,试图在准确性和标签成本之间取得平衡。
    • 离线任务分配的非自适应机制,和在线任务分配的自适应机制都有理论支持,大多数研究采用Dawid-Skene模型,该模型假设不同任务的潜在成本相同,很少探索更复杂的成本设置。
  • 设计一个合理的众包协议是重要的
    • 设计一个不确定选项,工作者在较少自信的时候就不会强制标注,这对改进标签质量提供了理论支持
    • 有工作提出了一种“双重或无”激励兼容机制,以确保工人基于自信心诚实行事;在假设每个工人都希望最大化他们的预期报酬的情况下,该协议证明可以避免人群中的发送垃圾信息者(spamers)。

7.Conclusion(结论)

(前面和摘要差不多,强调了文章只是二元情况,多元情况还会更复杂)

弱监督学习正在变得越来越重要

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值