读《Learning with Local and Global Consistency》

摘要

我们考虑从标记和未标记数据中学习的一般问题,这通常被称位半监督学习或转导推理。半监督学习的一种原则方法是设计一个分类函数,该函数对于已知的标记点和未标记点所揭示的内在结构具有足够的平滑性。我们提出了一个简单的算法来获得这样一个平滑的解。我们的方法在一些分类问题上产生了令人鼓舞的实验结果,并证明了对未标记数据的有效使用。

1 介绍

我们考虑常规的从标记和未标记数据中学习的问题。给定一组点集\large X =\left \{ x_1,...,x_l,x_{l+1},...,x_n \right \}和一组标签集\large L=\left \{ 1,...,c \right \},前\large l个点有标签\large \left \{ y_1,...,y_l \right \}\in L,剩下的点没有标签。目标是预测未标记点的标签。算法的性能仅由这些未标记的点的错误率来衡量。

这样的学习问题通常被称为半监督或者转导的。由于标记通常需要昂贵的人力,而未标记的数据更容易获得,半监督学习在许多现实世界的问题中非常有用,最近吸引了大量的研究。一个典型的应用就是网页分类,手动分类的网页通常只占整个网页的很小的一部分,而未标记的例子数量很大。

半监督学习问题的关键是先验的一致性假设,即:(1)像零点可能会具有相同的标签;(2)相同结构上的点(通常称为聚类或流形)可能具有相同的标签。通常称为聚类假设。注意,第一个假设是局部的,而第二个假设是全局的。传统的监督学习算法,如k邻近,一般只依赖于第一个局部一致性假设。

为了说明半监督学习中的一致性的先验假设,让我们考虑一个根据图1(a)中的两个交织的月亮模式生成的玩具数据集。每个点都应该与其附近的点相似,而且,一个月了上的点应该比另一个月亮上的点更相似。基于RBF核的支持向量机和k-NN的分类结果分别如图1(b)和图1(c)所示。然而,根据一致性假设,这两个月亮应该按照图1(d)所示进行分类。

谱方法、随机游走、图最小切割和转导支持向量机等各种半监督学习算法的主要区别在于它们实现一致性假设的方式将假设形式化的一个原则是设计一个分类函数,该函数对于已知的标记点和未标记点所揭示的内在结构足够光滑。这里我们提出了一个简单的迭代算法来构建这样一个光滑函数,其灵感来源于传播激活网络和扩散核,以及最近半监督学习和聚类的工作,更具体地说,来自Zhu等人的工作。该方法的基本思想是让每个点迭代地将其标签信息传递给相邻点,直到全局达到稳定状态

本文的组织如下:第2节详细介绍了算法,并讨论了可能的变换;第3节介绍了该方法的正则化框架;第4节给出了玩具数据、数字识别和文本分类的实验结果;第5节对本文进行了总结并指出了下一步的研究方向。

2 算法

给定一组点集\large X=\left \{ x_1,...,x_l,x_{l+1},...,x_n \right \}\subset \mathbb{R}^m和一组标签集\large L=\left \{ 1,...,c \right \},前\large l个点\large x_i(i\leq l)被标记为\large y_i \in L,剩余的点\large x_u(l+1\leq u\leq n)是未标记的。目标就是预测出未标记节点的标签。

\large F表示\large n\times c的矩阵的集合。矩阵\large F=[F_1^T,...,F_n^T]^T\in F通过将每个点\large x_i标记为\large y_i=arg max_{j\leq c}F_{ij},来对应数据集\large X上的分类。我们可以把\large F理解成一个向量函数\large F:X\rightarrow \mathbb{R}^c,它给每个点\large x_i

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
学习邻居一致性是一种用于处理噪声标签的方法。在现实中,数据集中的标签常常会受到一些错误或噪声的影响,这会对模型的训练和泛化能力造成不利影响。而学习邻居一致性则通过考虑样本的邻居关系来进一步提高模型的鲁棒性。 学习邻居一致性方法的核心思想是基于数据的局部性原理,即相似的样本倾向于具有相似的标签。该方法通过比较样本的标签,检测和修复噪声标签,并将不确定性信息引入模型训练过程中。 具体而言,学习邻居一致性方法会首先构建一个样本的邻居图,其中每个样本的邻居是根据特征相似性确定的。然后,该方法会使用邻居信息来计算每个样本的标签一致性得分。通过比较样本自身的标签和邻居的标签,可以有效地检测和纠正噪声标签。 在模型的训练过程中,学习邻居一致性方法会引入一个邻居一致性损失函数,用于最大化样本与其邻居的标签一致性得分。这样,模型会倾向于对邻居们的标签一致性进行学习,从而提高模型的鲁棒性和泛化能力。 总而言之,学习邻居一致性方法通过考虑样本的邻居关系来处理噪声标签。它通过检测和修正噪声标签,引入不确定性信息,并最大化标签一致性得分来提高模型的鲁棒性。这种方法在处理噪声标签方面具有一定的优势,并可在实际应用中取得良好的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值