弱监督学习

最新推荐文章于 2024-08-01 14:15:12 发布

XYZ_916

最新推荐文章于 2024-08-01 14:15:12 发布

阅读量1w

点赞数 2

分类专栏：机器学习

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

弱监督学习是指数据集的标签是不可靠的，如（x,y）,y对于x的标记是不可靠的。这里的不可靠是指标记不正确、多种标记、标记不充分、局部标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。

监督学习技术通过学习大量训练样本来构建预测模型，其中每个训练样本都有一个标签标明其真值输出。尽管当前的技术已经取得了巨大的成功，但是值得注意的是，由于数据标注过程的高成本，很多任务很难获得如全部真值标签这样的强监督信息。因此，能够使用弱监督的机器学习技术是可取的。

通常来说，弱监督可以分为三类。第一类是不完全监督（incomplete supervision），即，只有训练集的一个（通常很小的）子集是有标签的，其他数据则没有标签。第二类是不确切监督（inexact supervision），即只有粗粒度的标签。第三种是不准确的监督（inaccurate supervision），模型给出的标签不总是真值。

不完全监督

不完全监督考虑那些我们只拥有少量有标注数据的情况，这些有标注数据并不足以训练出好的模型，但是我们拥有大量未标注数据可供使用。形式化表达为，模型的任务是从训练数据集中学习，其中训练集中有 l 个有标注训练样本（即给出的样本）和 u = m - l 个未标注样本；其他条件与具有强监督的监督学习相同。将 l 个有标注示例称为「标注数据」，将 u 个未标注示例称为「未标注数据」。

能够实现此目标的主要两类技巧，即主动学习和半监督学习：

不确切监督

不确切监督关注于给定了监督信息，但信息不够精确的场景。一个典型的场景是仅有粗粒度的标签信息可用。

形式化表达为，该任务是从训练数据集中学习，其中被称为一个包。

，是一个示例，m_i 是示例 X_i 的数量，。

X_i 是一个 positive 包，即 y_i=Y，如果存在 x_ip 是正的，同时是未知的。其目标是为未见过的包预测标签。该方法被称为多示例学习.

不准确监督

不准确监督关注于监督信息不总是真值的场景，也就是说，有部分信息会出现错误。在实践中，基本的思想是识别潜在的误分类样本，然后尝试进行修正。

参考：

[1] https://www.jiqizhixin.com/articles/2018-03-05

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。