读《A survey on semi-supervised learning》(三)

5 无监督预处理

现在我们转向第二类归纳方法,称为无监督预处理,它不同于包装方法和本质上的半监督方法,将未标记数据和标记数据分为两个独立的阶段使用。通常,无监督阶段包括从未标记数据中自动提取或转换样本特征(特征提取),对数据进行无监督聚类(聚类即标记),或初始化学习过程的参数(预训练)

5.1 特征提取

自早期机器学习以来,特征提取在分类器的构建中起着重要的作用。特征提取方法试图找到输入数据转换,以提高分类器的性能或使其构造在计算上变得更加高效。特征提取是一个广泛的研究主题,已经被几本书和调查涵盖。我们关注少数特别突出的技术,并向读者提供关于特征提取的现有文献以获得进一步的信息。

许多特征提取方法在无监督的情况下进行操作,即不考虑标签。例如,主成分分析将输入数据转换为不同的基,使它们线性不相关,并根据它们的方差对主成分排序(Wold等人,1987)。其它传统的特征提取算法对标记的数据进行操作,并试图提取具有高预测能力的特征。

最近的半监督特征提取方法主要集中在使用深度神经网络寻找输入数据的潜在表示(在第6.2.1节,我们将进一步讨论神经网络)。最突出的例子是自动编码器(autoencoder):具有一个或多个隐藏层的神经网络,其目标是重建其输入。通过包含一个节点相对较少的隐藏层(通常称为表示层),网络被迫寻找一种紧凑地表示其输入数据的方法。一旦网络被训练,特征就有表示层提供。下图提供了标准自动编码器的原理图表示。

网络可以被认为是由两部分构成:编码器\large h,输入向量\large x映射到其潜在表示\large h(x)与解码器\large g,它试图将潜在表示映射回原\large x网络训练通过优化一个损失函数来惩罚重构误差:输入\large x和相应重构\large g(h(x))之间不一样的度量。一旦网络被训练,任何\large x的潜在表示都可以通过简单地传播它通过网络的编码器得到\large h(x)一种流行的自动编码器是去噪自动编码器,它对输入数据的有噪声版本进行训练,以惩罚重建数据对无噪声原始数据的重建误差(Vincent等人,2008)。另一种变体,收缩式自动编码器,直接惩罚了自动编码器对输入扰动的敏感性(Rifai等人,2011b)。

自动编码器试图在不牺牲大量信息的情况下找到输入空间的低维表示。因此,它们本质上是基于这样一个假设:输入空间包含数据所在的低维子结构。此外,当将其作为分类的预处理步骤时,它们假定同一低维子结构上的两个样本具有相同的标签。这些观测结果表明,自动编码器的基本假设与半监督流形假设密切相关。

在某些领域中,数据并不是固有地表示为有意义的特征向量。由于许多常用的分类方法都需要这样的表示,因此在这种情况下,特征提取是必要的。然后,特征提取步骤包括通过不同输入对象之间的关系,将给定对象嵌入到向量空间中。这种方法的例子可以在自然语言处理中找到。

5.2 cluster-then-label

传统上,聚类和分类被认为是不相关的研究领域。然而,许多半监督学习算法使用来自聚类的原则来指导分类过程。先聚类再标记的方法形成了一组方法,这些方法显式地将聚类和分类过程结合在一起:它们首先对所有可用数据应用无监督或半监督聚类算法,并使用得到的聚类来指导分类过程

Goldberg等人(2009)首先聚类标记数据和未标记数据的子集。然后,对包含在其中的标记数据上的每个聚类独立训练分类器。最后,使用分类器对未标记的数据点进行分类。在聚类步骤中,使用Hellinger距离构建数据点的图;然后将尺寸约束的谱聚类应用于得到的图。由于聚类只用于分割数据,然后将单个学习器应用到每个聚类中ÿ

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值