ABSTRACT
三种典型的弱监督:
-
不完全监督
incomplete supervision:只有少部分训练数据集有标签
-
不精确的监督
inexact supervision:训练数据只有粗粒度标签
-
不准确的监督
inaccurate supervision:给定的标签并不总是真实的
不完全监督
(一)主动学习——with human intervention
-
目的:训练一个标记成本最小化的良好模型
-
方法:选择最有价值的未标记样本进行标记
-
选择标准:信息性&代表性
① 信息性:不确定性抽样&委员会查询
② 代表性:聚类
(二)半监督学习——without human intervention
-
分类:纯半监督学习(开放)&直推学习(封闭)
-
分布假设:聚类假设(固有的集群结构)&流形假设(同一流形附近预测相同)
-
四类方法:
-
①
generative methods
②
graph-based methods
③
low-density separation methods
④
disagreement-based methods
不精确监督
多实例学习multi-instance learning
-
将图像分割,每个分割区域为一个实例,一个图像为一个多实例包(bag),正类多实例包的包中至少一个正实例;负类多实例包的包中全是负实例。
不准确监督
(一)相对邻域
-
节点为一个训练实例,连接两个不同标签的节点的边叫切边。
(二)可疑点
-
与许多切边相关联的节点。需要删除标记或重新标记。
(三)高维特征空间不可靠
-
数据稀疏,邻域识别通常不可靠。
(四)特殊例子
-
众包 中出现的错误标签问题,一个工人有多项任务。
-
多数投票策略工人质量和任务难度建模。
-
最低限度的足够数量: 需要的最低数量的人群标签上限。
-
平衡准确性和标签成本,许多研究涉及任务分配和预算分配。
文章下载地址
《A brief introduction to weakly supervised learning》