弱监督学习
1. 介绍
弱监督学习分为三种:不完全监督,不确切监督,不精确监督
- 不完全监督:只有部分数据有标签,一部分没有标签
- 不确切监督:知道这个图片有这个标签所对应的示例, 但是不知道是哪个示例
- 不精确监督:有一部分标签标注错误
针对以上,可以用不同的方法解决和改善
2.不完全监督
有两种方法,分别是主动学习和半监督学习,第一种有人为干预,第二种没有。
(1)主动学习:
首先,我们先训练这些标注过的数据,然后我们根据得到的经验对这些没有标注过的数据进行聚类.
在这些未标记数据中,主动学习尝试选择最有价值的未标记实例进行查询。最有价值指的是信息性和代表性。主动学习的目标是最小化查询的数量
(2)半监督学习:
半监督学习尝试在不查询人类专家的情况下利用未标注的数据,之所以没有标签还是能够构建预测模型,我认为还是聚类的思想。
3.不确切监督
可以考虑多实例学习
训练数据集中每一个数据看做一个包(Bag),每个包由多个实例(Instance)构成,每个包有一个可见的标签,在上图例子中,假设这个包大小为88,如果我们用size为22的图片包生成器(Image bag generators)去取得实例,那么我们可以得到16个实例(Instance)。
显而易见,我们这个包是有标签的,包中的每个实例是没有标签的。
多实例学习假设每一个正包必须存在至少一个关键实例。那么这个包的标签为正(positive)。多实例学习的过程就是通过模型对包及其包含的多个实例进行分析预测得出包的标签。
4.不精确监督
可以考虑带噪学习
基本的思想是识别潜在的误分类样本,然后尝试进行修正。例如,我们用数据编辑的方法去构建一个关系相邻表。然后我们判断一个点是否为可疑点。我们判断这个点和相邻的点是否一样。如果一样,那这个点就不是可疑的,将保持原样。如果这个点和相邻的点不一样,那么这个点是可疑的,这个点将被删除或者被重新标记。
参考:https://zhuanlan.zhihu.com/p/81404885