弱监督学习综述(Weak Supervision 2019)

近年来,机器学习(ML)的现实影响已经突飞猛进。在很大程度上,这是由于深度学习模型的出现,这使得从业者可以在benchmark集上获得优异的分数,而无需任何手工设计的特征( hand-engineered features)。鉴于TensorFlow和PyTorch等多种开源ML框架的可用性,以及大量可用的最先进模型,可以说高质量的ML模型现在几乎是商品化的资源。然而,有一个隐藏的问题:这些模型依赖于大量手工标记的训练数据the reliance of these models on massive sets of hand-labeled training data.)。

这些手工标记的培训集创建起来既昂贵又耗时——通常需要数月或数年才能收集、清理和调试——尤其是在需要领域专业知识的情况下。除此之外,任务通常会在现实世界中发生变化和演变。例如,打标签的规则(指南),标注的粒度或下游的用例经常发生变化,需要重新标记(例如,不仅要将评论分类为正类或负类,还要引入一个中性类别)。由于所有这些原因,从业者越来越多地转向较弱的监督形式,例如启发式地利用外部知识库,模式/规则或其他分类器生成训练数据。从本质上讲,这些都是以编程方式生成培训数据的所有方式 ——或者更简洁地说,是编程培训数据。

如何获得标记好的训练数据?

ML中的许多传统研究方法同样受到标记训练数据的深度学习模型的无法满足的兴趣的推动。 我们首先将这些其他方法与弱监督之间的核心区别从高层次中划分出来:弱监督是指利用主题专家(SME)的更高层次和/或更嘈杂的投入(weak supervision is about leveraging higher-level and/or noisier input from subject matter experts (SMEs).)。目前仅有中小企业直接标记大量数据的主流方法的关键问题是它很昂贵:例如,为医学成像研究获取大型数据集要困难得多——与廉价劳动力研究生不同,放射科医生(专家)不会因为一点小惠小利就答应帮你标记数据集。因此,ML中许多经过充分研究的工作线是由于获得标记的训练数据的瓶颈所致。

 

弱监督通常分为三种类型:不完全监督、不确切监督、不准确监督。

(1)不完全监督

指的是训练数据只有部分是带有标签的,同时大量数据是没有被标注过的。这是最常见的由于标注

  • 17
    点赞
  • 102
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值