弱监督学习综述（Weak Supervision 2019）

最新推荐文章于 2024-08-01 14:15:12 发布

奔跑的Yancy

最新推荐文章于 2024-08-01 14:15:12 发布

阅读量1.4w

点赞数 17

分类专栏：机器学习&数据挖掘(Data Mining) 文章标签：弱监督半监督无监督多监督

本文链接：https://blog.csdn.net/lyxleft/article/details/89742685

版权

本文概述了弱监督学习的概念，探讨了不完全、不确切和不准确监督的形式，强调了弱监督在解决标记数据难题中的作用。通过Snorkel等工具，弱监督已展现出在提高模型效率和性能上的潜力，并且在多任务学习中得到进一步发展。

摘要由CSDN通过智能技术生成

近年来，机器学习（ML）的现实影响已经突飞猛进。在很大程度上，这是由于深度学习模型的出现，这使得从业者可以在benchmark集上获得优异的分数，而无需任何手工设计的特征（ hand-engineered features）。鉴于TensorFlow和PyTorch等多种开源ML框架的可用性，以及大量可用的最先进模型，可以说高质量的ML模型现在几乎是商品化的资源。然而，有一个隐藏的问题：这些模型依赖于大量手工标记的训练数据（the reliance of these models on massive sets of hand-labeled training data.）。

这些手工标记的培训集创建起来既昂贵又耗时——通常需要数月或数年才能收集、清理和调试——尤其是在需要领域专业知识的情况下。除此之外，任务通常会在现实世界中发生变化和演变。例如，打标签的规则（指南），标注的粒度或下游的用例经常发生变化，需要重新标记（例如，不仅要将评论分类为正类或负类，还要引入一个中性类别）。由于所有这些原因，从业者越来越多地转向较弱的监督形式，例如启发式地利用外部知识库，模式/规则或其他分类器生成训练数据。从本质上讲，这些都是以编程方式生成培训数据的所有方式 ——或者更简洁地说，是编程培训数据。

如何获得标记好的训练数据？

ML中的许多传统研究方法同样受到标记训练数据的深度学习模型的无法满足的兴趣的推动。我们首先将这些其他方法与弱监督之间的核心区别从高层次中划分出来：弱监督是指利用主题专家（SME）的更高层次和/或更嘈杂的投入（weak supervision is about leveraging higher-level and/or noisier input from subject matter experts (SMEs).）。目前仅有中小企业直接标记大量数据的主流方法的关键问题是它很昂贵：例如，为医学成像研究获取大型数据集要困难得多——与廉价劳动力研究生不同，放射科医生（专家）不会因为一点小惠小利就答应帮你标记数据集。因此，ML中许多经过充分研究的工作线是由于获得标记的训练数据的瓶颈所致。