读《A survey on semi-supervised learning》(二)

4 包装方法

包装方法是半监督学习中最古老和最广为人知的算法之一(Zhu,2008)。他们利用一个或多个有监督的基础学习器,用原始标记数据和先前未标记的数据迭代训练这些数据,这些数据是用来自学习器早期迭代的预测增强的。后者通常被称为伪标签数据。该程序通常包括训练和伪标记两个交替的步骤。在训练步骤中,一个或多个有监督的分类器在标记的数据上训练,也可能是以前迭代的伪标记数据在伪标签步骤中,生成的分类器用于为先前未标记的对象推断标签;学习器对其预测最有信心的数据点进行伪标记,以便在下一次迭代中使用

包装方法的一个显著优点是,它们可以用于几乎任何有监督的基础学习器。有监督的基础学习器可能完全不知道包装方法,包装方法简单地讲伪标签样本传递给基础学习器,就像它们是常规标签样本一样。尽管一些包装方法需要基础学习器提供概率预测,但许多依赖于多个基础学习器的包装方法不需要。对于任何特定的包装方法,其基础的半监督学习假设取决于所使用的基础学习器。从这个意义上说,包装方法本身不能认为是一种学习方法:只有当它与一组特定的基础学习器组合在一起时,它才成为一种完整的学习方法。

Triguero等人(2015)最近发表了对包装方法的全面调查。除了提供一个概述的方法,他们也提出了一个包装方法的分类方法,基于(1)有多少分类器使用,(2)是否使用不同类型的分类器,(3)是否使用单一视图或多视点数据(即数据是否分成多个功能子集)。这种分类法为了解包装方法提供了有价值的见解。

我们提出了一个不太复杂的分类法,重点介绍了文献中研究过的三种相对独立的包装方法类型。首先,我们考虑自训练(self-training),它使用一个监督分类器,迭代地对自己最自信地预测进行再训练。其次,我们考虑了协同训练(co-training),这是自训练的一种扩展,将多个分类器迭代地根据彼此最自信的预测进行再训练。分类器应该具有足够的多样性,这通常通过对给定对象或特征的不同子集进行操作来实现。最后,我们考虑伪标签增强方法(pseudo-labelled boosting methods)。与传统的增强方法一样,它们通过顺序构建单个分类器来构建分类器集成,其中每个分类器在有标记的数据上训练,在未标记的数据上训练之前分类器最自信的预测。

4.1 自训练

自训练方法(有时也成为自学习方法)时最基本的伪标签方法(Triguero等人,2015)。它们由一个单独的监督分类器组成,该分类器在有标记的数据和在算法之前迭代中已被伪标记的数据上进行迭代训练

在自训练过程的开始,只对标记的数据训练一个有监督的分类器。生成的分类器用于获得未标记数据点的预测。然后,将最自信的预测添加到标记数据集,并对原始标记数据和新获得的伪标记数据进行监督分类器训练。这个过程通常时迭代的,直到没有更多的未标记的数据。

自训练最早由Yarowsky(1995)提出,是一种在文本文档中进行词义消歧的方法,即根据上下文预测词义。从那时起,自训练的一些应用和变化被提出。例如,Rosenberg等人(2005)将自训练应用于目标检测问题,并显示出当时最先进的目标检测模型更好的性能。Dopido等人(2013)开发了一种用于高光谱图像分类的自训练方法。他们使用领域知识来选择一组候选的未标记样本,并用训练有素的分类器做出的预测对这些样本中信息量最大的进行伪标记。

自训练范式允许大量的设计决策,包括选择伪标签数据,在算法的后续迭代中重用伪标签数据,以及停止标准选择伪标签数据的过程特别重要,因为它决定了哪些数据最终进入分类器的训练集在典型的自训练设置中,这种选择是基于预测置信度,置信度估计的质量显著影响算法性能其中,未标记的样本的预测概率排序反映真实置信度排序

如果由校准良好的概率预测,则可以直接使用各自的概率。在这种情况下,自训练方法是迭代的,而不是增量的,因为未标记数据点的标签概率在每一步都要重新估计。在这种情况下,方法变得类似于期望最大化(EM;Dempster等人,1977)。它已经在朴素贝叶斯的背景下得到了很好的研究,这是固有的概率(Nigam和Ghani,2000;Nigam等人,2000,2006)。Wu等人(2021b)最近将带有朴素贝叶斯分类器的半监督EM应用于电子商务网站的假货评论检测问题。

不支持鲁棒概率预测的算法可能需要自适应,以从自训练中获益。决策树就是一个典型的例子:如果不进行任何修改和修剪,预测概率估计(通常根据带有特定标签的叶子中的样本比例计算)通常质量很低。这主要归因于大多数决策树学习算法都明确地试图最小化树节点中的杂质,从而鼓励小叶子和高度偏差的概率估计(Provose和Domingos,2003)。Tanha等人(2017)试图用两种不同的方法来客服这个问题。首先,他们采用现有的几种方法,如嫁接(grafting?)和拉普拉斯校正,直接改进预测概率估计。其次,他们使用一种基于局部距离的度量来确定实例之间的置信度排名:一个未标记数据点的预测置信度是基于该点与每个类别的标记数据之间的马氏距离的绝对差。使用这种方法,他们在决策树和随机森林(决策树的集合)的性能上都得到了改善(Tanha等人,2017)。

Leistner等人(2009)也利用自训练来改进随机森林。对于未标记数据\large x\in X_U,他们不是根据估计的后验分布\large p(y|x)对每棵树

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值