半监督学习:
部分样本有标记,但是大部分样本无标记
解决办法:
主动学习+专家知识
Or
半监督学习
半监督学习 应用需求非常强烈,因为大量数据都是未标记的,标记成本高
半监督学习的基本假设:
聚类假设:即假设数据存在簇结构
Or 流形假设
半监督学习方法:
一、生成式方法:
假设存在潜在模型,未标记的分类时缺失的参数,通过EM算法的极大似然估计求解
——假设的模型是关键
二、半监督SVM
对于SVM,试图找到最大间隔划分超平面
半监督SVM——低密度分隔
考虑未标记样本,S3VM,试图找到能够将两类有标记的样本分开,并且穿过数据的低密度区域的划分超平面!
TSVM
思想:对未标记样本,穷举指派分类,尝试对所有的情况训练训练一个间隔最大化的划分超平面!一旦超平面确定,最终的指派的分类就是预测结果
——穷举效率太低
——启发式方法:
——1