半监督学习提出的原因:
传统的机器学习技术分为两类,一类是无监督学习,一类是监督学习。无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。
但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高。这是由于:
1. 有标记样本难以获取,需要专门的人员,特别的设备,额外的开销等等。
2. 无标记的样本相对而言是很廉价的。
图1出自周老师的西瓜书。左边的待标记样本处于一个正样本和一个负样本中间,此时无法判定其类别,但如果有一堆未标记样本时,可看出,待标记样本是正样本的可能性更大。“相似的样本拥有相似的输出”
图1
半监督学习的方法:
生成式方法(假设的生成式模型必须与真实数据分布吻合);SVM(S3VM试 图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面);图半监督学习(一个图对应了一个矩阵,能基于矩阵运算来进行半监督学习算法的推导与分析);基于分歧的方法(co-training,tri-training)等。
co-training 协同训练法的学习过程(最开始用于多视图):
1. 首先分别在每个视图上利用有标记样本训练一个分类器;
2. 然后,每个分类器从未标记样本中挑选若干标记置信度(即对样本赋予正确标记的置信度