定义
数据集中有一部分已标注数据,但绝大部分是未标注数据。
直推式学习:未标注数据就是测试数据
生成式学习:未标注数据不是测试数据
为什么做半监督
因为很多情况下,是无法获取大量已标注数据的
半监督学习的启发模型
主要的思想就是:既然不知道某一未标注数据到底是什么,那么就用概率替代标签
对于未知数据要如何定义极大似然函数?见上图
自训练模型
训练的过程:
1.根据已标注数据,训练出一个模型
2.利用此模型给未标注数据分类(pseudo-label 伪标签)
3.然后把一部分的伪标签数据看作已标注数据,再进行一次训练,重复
区别在于如何选第三步中的伪标签
而且很需要说明的一点,就是在回归问题中这个策略是没有效果的
软硬区别
软标签是没有意义的,就类似回归里面没意义
Low-density Separation 低密度分离
这个假设就是,类别间是泾渭分明的(使用硬标签),且在分界线附近的数据密度低
信息熵正则化
Smoothness Assumption
分布式不均匀的,有地方密集,有地方稀疏
在一个高密度聚集的分布中,相似的输入,会有相同的输出
简单说就是:近朱者赤近墨者黑(这个假设还是比较符合大多数情况的)
类似聚类的思想
图方法
可以尝试建立一个类似这个的图,图中相互链接着的点认为是同类,不链接的点就认为是不同类,和点之间的举例就没有关系了。
那么怎么建立这个图呢?(比如根据数据的实际意义-网站跳转关系等,还有KNN)
图的Smoothness正则化
用来评估当前的标签是否恰当 类似损失函数 所以亦可以算是一种正则化