弱监督学习

弱监督学习是指数据集的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。这里的不可靠是指标记不正确、多种标记、标记不充分、局部标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。

监督学习技术通过学习大量训练样本来构建预测模型,其中每个训练样本都有一个标签标明其真值输出。尽管当前的技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的高成本,很多任务很难获得如全部真值标签这样的强监督信息。因此,能够使用弱监督的机器学习技术是可取的。

通常来说,弱监督可以分为三类。第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。第二类是不确切监督(inexact supervision),即只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。

不完全监督

不完全监督考虑那些我们只拥有少量有标注数据的情况,这些有标注数据并不足以训练出好的模型,但是我们拥有大量未标注数据可供使用。形式化表达为,模型的任务是从训练数据集中学习,其中训练集中有 l 个有标注训练样本(即给出 的样本)和 u = m - l 个未标注样本;其他条件与具有强监督的监督学习相同。将 l 个有标注示例称为「标注数据」,将 u 个未标注示例称为「未标注数据」。

能够实现此目标的主要两类技巧,即主动学习和半监督学习 :

不确切监督

不确切监督关注于给定了监督信息,但信息不够精确的场景。一个典型的场景是仅有粗粒度的标签信息可用。

形式化表达为,该任务是从训练数据集中学习,其中被称为一个包。

是一个示例,m_i 是示例 X_i 的数量,

X_i 是一个 positive 包,即 y_i=Y,如果存在 x_ip 是正的,同时是未知的。其目标是为未见过的包预测标签。该方法被称为多示例学习.

不准确监督

不准确监督关注于监督信息不总是真值的场景,也就是说,有部分信息会出现错误。在实践中,基本的思想是识别潜在的误分类样本 ,然后尝试进行修正。

 

参考:

[1] https://www.jiqizhixin.com/articles/2018-03-05

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值