设想一个问题的场景:在监督学习方法中,获得有标注数据是异常困难的,而获得无标签数据时相对容易的,有这个现状的情况下,那我们该如何解决这些问题呢?主动学习就是为了解决此类问题而出现的。本文只是一个概述,主要用来考虑现在的主动学习的研究方向是怎样的。之后会仔细的学习每一个算法。
一般而言,主动学习方法,主要分为二个部分:学习引擎和选择引擎。其中,学习引擎负责维护一个基准分类器,根据监督学习的方法来对已标注数据进行学习,从而使该分类器的性能提高,选择引擎负责运行样例选择算法来选择一个未标注的样例并交给人类专家来进行标注,然后再将标注后的样例加入已标注样本集中。二个引擎交替工作,经过多次循环,基准分类器的性能逐渐提高,满足某个预设的条件时,整个过程终止。
对于主动学习而言,研究的几个热门方向现列举如下。
1,从理论上而言,主动学习相比监督学习算法而言,能够多大程度可以降低样本复杂度。对于传统监督学习算法而言,为了获得期望错误率小于e的分类器,那么要求样本复杂度为一个数值,我们不管这个数值是多少(),那么主动学习就必须对于样本复杂度要求更低,这样才有意义,不然要主动学习干哈。。但这个方向真的太数学了。
2,样例选择算法,也就是选择引擎的算法的选择。如何选择未标注的样例呢?是逐个按照先后顺序来提交给选择引擎(基于流的主动学习)或者是维护一个未标注的样本集(基于池的主动学习)。
在基于池的样例选择算法中,我们的研究很充分,是按照怎么样的标准来选择呢?第一种选择的方法可以是不确定度缩减的方法(信息熵),第二种方法中基于版本空间缩减的方法(类似于投票选择),第三种方法基于泛化误差缩减的方法(减少估计未来的错误率),第四种方法,无法进行归类的主动学习算法,如COMB,多视图主动学习,预聚类主动学习等。
在基于流的样例选择算法中,大多可以通过调整基于池的算法来实现,一般是通过阈值来判定是否对其进行标注。
3,主动学习算法主要投入的具体的应用,其中包括文档分类及信息抽取,图像检索,入侵检测,Web分析和视频分析等广大领域的实际问题。
对于主动学习算法的分类形式,有一些其他的分类的说法。
1,基于委员会的启发式方法(QBC),其实就是基于池的样例选择算法中,基于版本空间缩减的方法,就是多个分类模型,然后选择一个分类中最不一致的样本。其中比较出名的方法:熵值袋装查询(EQB),自适应不一致最大化(AMD)
2,基于边缘的主动学习算法(MS)。主要用于支持向量机模型的主动学习之中,对于SVM而言,是有一个决策边界的,在决策边界的样本是不好确定其标签的,所以选择这样的边界来进行标记。其中主要有三种算法:边缘抽样,基于多层次的不确定性抽样,基于空间重构的抽样
3,基于后验概率的主动学习算法(PP)。后验概率体现了样本类别的确信度,该算法根据预测所得样本后验概率值的大小,然后对候选样本集进行排序。具体的方法有:Kullback-Leibler最大化,Breaking Ties算法。
对于主动学习而言,优点在于:能够很好的处理较大的样本,从中选择有辨识能力的样本点,减少人工标注成本,高效的训练模型。
以SVM为例:SVM的主动学习机包括二个独立的部分(f, g),其中f是一个SVM分类器,q是一个搜索引擎,也就是一个查询函数,根据训练样本集,决定下一步应从候选集U中选择哪一个样本进行标注。