(一)从概念上区分
主动学习(active learning)
学习器能够主动选择包含信息量大的未标注的样例并将其交由专家进行标注,然后置入训练集进行训练,从而在训练集较小的情况下获得较高的分类正确率,这样可以有效的降低构建高性能分类器的代价。
学习器能够主动的提出一些标注请求,将一些经过筛选的数据交给专家进行标注。这个过程中最重要的是如何筛选数据进行标注。
A=(C,L,S,Q,U)
其中,C是一个或者一组分类器;L是一组已标注的训练样本集,S是监督者,也就是专家,对选择的未标注数据进行标注,Q是查询函数,用于在未标注的样本中查询信息量大的样本;U是为未标注的数据集。
主动学习的过程,是首先利用C训练L,得到一个训练好的分类器,然后Q选择U中的未标注数据给S进行标注,标注后交给L,然后再由C来进行训练,不断的循环迭代,最终达到我们的标准为止。
半监督学习(Semi-Supervised learning,SSL)
半监督学习是将监督学习和无监督学习相结合的一种学习方法。主要考虑的是如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。主要分为半监督分类,半监督回归,半监督聚类和半监督降维算法。
在SSL的研究历史中,出现了自训练(self-training),直推学习(Transductive learning),生成式模型(Generative Model)等学习方法。