摘要
我们考虑从标记和未标记数据中学习的一般问题,这通常被称位半监督学习或转导推理。半监督学习的一种原则方法是设计一个分类函数,该函数对于已知的标记点和未标记点所揭示的内在结构具有足够的平滑性。我们提出了一个简单的算法来获得这样一个平滑的解。我们的方法在一些分类问题上产生了令人鼓舞的实验结果,并证明了对未标记数据的有效使用。
1 介绍
我们考虑常规的从标记和未标记数据中学习的问题。给定一组点集和一组标签集,前个点有标签,剩下的点没有标签。目标是预测未标记点的标签。算法的性能仅由这些未标记的点的错误率来衡量。
这样的学习问题通常被称为半监督或者转导的。由于标记通常需要昂贵的人力,而未标记的数据更容易获得,半监督学习在许多现实世界的问题中非常有用,最近吸引了大量的研究。一个典型的应用就是网页分类,手动分类的网页通常只占整个网页的很小的一部分,而未标记的例子数量很大。
半监督学习问题的关键是先验的一致性假设,即:(1)像零点可能会具有相同的标签;(2)相同结构上的点(通常称为聚类或流形)可能具有相同的标签。通常称为聚类假设。注意,第一个假设是局部的,而第二个假设是全局的。传统的监督学习算法,如k邻近,一般只依赖于第一个局部一致性假设。
为了说明半监督学习中的一致性的先验假设,让我们考虑一个根据图1(a)中的两个交织的月亮模式生成的玩具数据集。每个点都应该与其附近的点相似,而且,一个月了上的点应该比另一个月亮上的点更相似。基于RBF核的支持向量机和k-NN的分类结果分别如图1(b)和图1(c)所示。然而,根据一致性假设,这两个月亮应该按照图1(d)所示进行分类。
谱方法、随机游走、图最小切割和转导支持向量机等各种半监督学习算法的主要区别在于它们实现一致性假设的方式。将假设形式化的一个原则是设计一个分类函数,该函数对于已知的标记点和未标记点所揭示的内在结构足够光滑。这里我们提出了一个简单的迭代算法来构建这样一个光滑函数,其灵感来源于传播激活网络和扩散核,以及最近半监督学习和聚类的工作,更具体地说,来自Zhu等人的工作。该方法的基本思想是让每个点迭代地将其标签信息传递给相邻点,直到全局达到稳定状态。
本文的组织如下:第2节详细介绍了算法,并讨论了可能的变换;第3节介绍了该方法的正则化框架;第4节给出了玩具数据、数字识别和文本分类的实验结果;第5节对本文进行了总结并指出了下一步的研究方向。
2 算法
给定一组点集和一组标签集,前个点被标记为,剩余的点是未标记的。目标就是预测出未标记节点的标签。
令表示的矩阵的集合。矩阵通过将每个点标记为,来对应数据集上的分类。我们可以把理解成一个向量函数,它给每个点