目录
概念
- 半监督学习要让学习器不依赖外界交互、自动的利用未标记数据来提升学习性能
- 关键在于给未标记数据打上正确的标签
- 为了应用未标记数据,必须对未标记数据的分布和已标记数据之间的关系作出某种假设,即相似的样本有相似的分布和输出,例如聚类假设和流形假设
分类
- 纯半监督学习:训练数据中的未标记数据不是待测数据
- 直推学习:训练数据中的未标记数据恰好就是待测数据,学习的目的就是在这些为标记的样本上获得最优的泛化性能。
关键:打标签的方法
- 生成式方法:所有标记都是基于同一个潜在模型生成,未标记数据可以看做潜在模型的缺失参数,因此可以用EM算法求解。这个潜在模型的到底是什么必须根据先验知识作出充足的假设才能保证此方法的准确性。这就要根据实际情况具体分析,例如可以假设为GMM模型
-
半监督SVM(S3VM):SVM基于标记数据,优化策略是找到能够将样本分类的最大间隔分类超平面;而S3VM在这个基础上,