Semi-supervised learning



在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术,wiki上对这三种学习的简单描述如下:

  • 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。
  • 非监督学习:直接对输入数据集进行建模,例如聚类。
  • 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。


    其实很多机器学习都是在解决类别归属的问题,即给定一些数据,判断每条数据属于哪些类,或者和其他哪些数据属于同一类等等。这样,如果我们上来就对这一堆数据进行某种划分(聚类),通过数据内在的一些属性和联系,将数据自动整理为某几类,这就属于非监督学习。如果我们一开始就知道了这些数据包含的类别,并且有一部分数据(训练数据)已经标上了类标,我们通过对这些已经标好类标的数据进行归纳总结,得出一个 “数据–>类别” 的映射函数,来对剩余的数据进行分类,这就属于监督学习。而半监督学习指的是在训练数据十分稀少的情况下,通过利用一些没有类标的数据,提高学习准确率的方法。


    主动学习(active learning),指的是这样一种学习方法:




    按wiki上所描述的看,主动学习也属于半监督学习的范畴了,但实际上是不一样的,半监督学习和直推学习(transductive learning)以及主动学习,都属于利用未标记数据的学习技术,但基本思想还是有区别的。








    所谓的 semi-supervised learning 和 unsupervised learning
    以及 supervised learning 差异、以及与 transductive 与 inductive
    learning 的联系,这里不继续说了。常用的一些假设主要是光滑性
    (等价的说就是 low-density separation)、clustering assumption、
    manifold assumption。

    主要针对 classification 和 regression 来说。这里面一般获得的
    unlabelled 数据用来改进当前算法有几种方式。

    一种就是很纯粹的用它来做一个 generative model,如密度估计,
    又比如 DBN 在无 label 时候做的学习(本质上训练了一个 MRF),
    这也是一个 density estimation。不过最后怎么用这个 model 来
    改进原来的 learner,倒是各有不同。一种纯粹的做法就是用这个
    density 作为 kernel(用 Fisher information matrix 作为马氏距离
    那个矩阵),这样只要原来的 learner 是可以利用 kernel 的,那
    么相当于在 feature space 增加了 density 的信息。另外一种是
    作为一个 initial value,比如 DBN 就用这个作为 BP 进行 fine tune

    说到 kernel 就不能忘记度量,有人也提出来用 density 去修正度
    量,比如用 1/ q(x),然后用局部距离和这个 weight 就可以获得
    最近邻分类器。另外 Jerry 早期也有一个利用 Laplacian matrix
    的谱分解获得新的度量的结果,xzt 介绍下吧 @@

    还有一种类似于 generative model,但是把 label 作为 latent variable,
    这样的话为 unlabelled data 估计 latent variable 就跟一般图模型
    里面训练参数类似了,只是 labelled data 的隐变量的值是已知的。
    一般来说这个就是通过 EM 就搞定了(先用 labelled data 初始化)。
    如果把 EM 看成软 cluster,那么可以换成硬 cluster,这主要是基
    于所谓的 clustering assumption。

    另外一种就是干脆把 generative model 作为一个 regularizer,因
    为 negated log-likelihood 一般认为是一个 loss,因此把 generative
    model 的 negated log-likelihood 放在一个 supervised learner 的
    loss 里面(有人这样改进 logistic regression)。

    wrapper 的做法挺多的,比如 self-training,co-training 和 tri-training,
    到后面一方面似乎就是做成了 multi-view learning,一方面就是 ensemble
    去了。self-training 基本上就是把自己肯定的那部分加进训练集,这个
    肯定不肯定可以用 conditional entropy 来做(也有直接用这个 entropy
    做 regularizer 的)。multi-view learning 就是把所有的分类器(用的不同
    的 feature 可能是)一起训练,然后加一个 agreement 作为 regularizer,
    逼迫多个分类器互相赞同彼此的决策。co-training 似乎还简单些,就是

    说到 conditional entropy,也就有从 information theory 来找 regularizer
    的,比如使用一个区域内样本的条件分布和整体的 KL 距离衡量光滑程度,
    这也是 Jaakkola 的工作,似乎后面一作去 google 了也没啥新进展。

    比较流行的一类就是所谓 graph-based。这里面主要的思想就是利用
    unlabelled data 做一个 graph(跟 manifold learning 里面的做法一样),
    然后可以用 Laplace matrix 作为 regularizer(其实是强迫在 graph 上
    smooth),然后也有用 graph cut(如 min cut、normalized cut)作为
    low density separation 的,另外所谓的 harmonic function 其实就是
    对 Laplace 矩阵谱分解,一般获得的跟 Laplacian Eigen map 类似,是
    一个 transductive 的结果。在就是在 graph 上面的 random walk 作为
    判定方法,从任意一个 node 出发,看到哪类样本(labelled data 作为
    吸收壁)的概率大,这是所谓 label propagation 的基本想法(似乎文

    这里面,可以说对 SVM 的 semi-supervised 版本研究最多,可能因为
    SVM 本身优秀的性质和广为人所关注的特点吧。常见的做法,比如 TSVM
    做组合优化,通过改 unlabelled data 的 loss(非凸)做的,比如用
    CCCP、模拟退火和 continuation,也有暴力的 cutting plane。另外也有
    把 unlabelled data 的 label 作为 transductive learning 的目标,formulate
    成为一个 SDP 问题(去掉了 rank = 1 的约束)。

    有文章说道在 semi-supervised learning 领域里面,generative model
    占主要的地位不是没有道理,因为 discriminative model 并不依赖数据
    的分布(margin distr),根据 graph model 里面分析会发现后者由于
    条件独立,使得推断失去意义。那么一般对 discriminitive model 的修
    正,多是通过 regularizer 进行的,不像 generative model 很容易就把
    unlabelled data 能够用到。一种想法是通过建立某些参数之间的关系,
    增加一些边,另一种是增加新的变量(如 null category noise model)
    使得参数和 unlabelled data 不至于条件独立。

    不过需要注意的是,不是加入了 unlabelled data 就一定会获得很好的
    结果,如果使用 generative model,如果存在模型和数据的 bias,那么
    随着数据的增多,结果反而会变差。另外 outlier 的存在也可能 degrade
    generative model。Jerry 08 年 NIPS 上那篇文章想说什么呢?也请 xzt

    最后说一下 clustering 和 manifold learning 的 semi-supervised version,
    前者加入的是两个样本同 cluster or not 的信息,后者加入一些 landmark



    以下为Xiaojin Zhu在ICML2007上的陈述内容梗概,更多内容可以在他的主页上得到。懒得整理成中文了,而且很多术语虽然理解了意思,但还不知道确切的中文描述...现在才深刻体会到,要想学习前沿的知识,只有通过互联网,平常看书只是看些稳定成型的老知识。。。


    一、Introduction to semi-supervised learning

       What is semi-supervised learning and transductive learning?  Why can we ever learn a classifier from unlabeled data?  Does unlabeled data always help?  Which semi-supervised learning methods are out there?  Which one should I use?  Answers to these questions set the stage for a detailed look at individual algorithms.

    二、Semi-supervised learning algorithms

       In fact we will focus on classification algorithms that uses both labeled and unlabeled data.  Several families of algorithms will be discussed, which uses different model assumptions:


      Probably the earliest semi-supervised learning method.  Still extensively used in the natural language processing community.

    2、Generative models

       Mixture of Gaussian or multinomial distributions, Hidden Markov Models, and pretty much any generative model can do semi-supervised learning.  We will also look into the EM algorithm, which is often used for training generative models when there is unlabeled data.


      Originally called Transductive SVMs, they are now called Semi-Supervised SVMs to emphasize the fact that they are capable of induction too, not just transduction.  The idea is simple and elegant, to find a decision boundary in 'low density' regions.  However, the optimization problem behind it is difficult, and so we will discuss the various optimization techniques for S3VM, including the one used in SVM-light, Convex-Concave Procedure (CCCP), Branch-and-Bound, continuation method, etc.

    4、Graph-based methods

       Here one constructs a graph over the labeled and unlabeled examples, and assumes that two strongly-connected examples tend to have the same label.  The graph Laplacian matrix is a central quantity.  We will discuss representative algorithms, including manifold regularization.

    5、Multiview learning

       Exemplified by the Co-Training algorithm, these methods employ multiple 'views' of the same problem, and require that different views produce similar classifications.

    6、Other approaches

       Metric based model selection, tree-based learning, information-based method, etc.

    7、Related problems

       Regression with unlabeled data, clustering with side information, classification with positive and unlabeled data; dimensionality reduction with side information, inferring label missing mechanism, etc.

    三、Semi-supervised learning in nature

        Long before computers come around and machine learning becomes a discipline, learning has occurred in nature.  Is semi-supervised learning part of it?  The research in this area has just begun.  We will look at a few case studies, ranging from infant word learning, human visual system, and human categorization behavior.

    四、Challenges for the future

        There are many open questions.  What new algorithms / assumptions can we make?  How to efficiently perform semi-supervised learning for very large problems?  What special methods are needed for structured output domains?  Can we find a way to guarantee that unlabeled data would not decrease performance?  What can we borrow from natural learning?  We suggest these as a few potential research directions.




