机器学习常识 14: 半监督学习

半监督学习结合了监督与无监督学习,利用少量标签数据和大量无标签数据来提升模型预测能力。文章通过不同的学习场景,如主治医生指导实习生诊断流感的例子,阐述了半监督学习在不同情况下的应用,包括封闭世界和开放世界二分类问题。这种学习方式对于处理大量未标记数据的问题尤为有效。
摘要由CSDN通过智能技术生成

摘要: 半监督学习强调的是一种学习场景, 在该场景下, 无标签数据可以协助带标签数据提升预测质量.

1. 基本概念

  • 监督学习: 训练数据都有标签, 相应的任务为分类、回归等.
  • 无监督学习: 训练数据都没有标签, 相应的任务为聚类、特征提取 (如 PCA) 等.
  • 半监督学习: 部分训练数据没有标签, 相应任务与监督学习一致.

从三者的关系可以看出, 半监督学习是从监督学习与无监督学习自然推导出来的.

2. 学习场景

半监督学习的一大意义在于, 它导出了学习场景这个概念.

  • 上午来了 100 个就诊者, 主治医生啥也没说, 实习生自悟, 把他们分成几个簇, 并且无法解释每簇的语义 (是否患病之类), 这是无监督学习场景中的聚类问题.
  • 上午来了 100 个就诊者, 主治医生对每个人判断, 哪些患流感 (正例), 哪些没有 (负例). 实习生学习到流感的诊断方法. 下午来了新的就诊者, 实习生对他们进行诊断. 这是监督学习场景中的二分类问题.
  • 上午来了 100 个就诊者, 主治医生对其中的 40 个人判断, 哪些患流感 (正例), 哪些没有 (负例). 实习生对剩下的 60 人进行诊断. 这是封闭世界半监督学习场景中的二分类问题.
  • 上午来了 100 个就诊者, 主治医生对其中的 40 个人判断, 哪些患流感 (正例), 哪些没有 (负例). 下午来了新的就诊者, 实习生对他们进行诊断. 这是开放世界半监督学习场景中的二分类问题.

关于半监督学习中无标签数据协助提升学习器质量的讨论, 参见 半监督学习之白话版 (图示).
关于场景的其它论述, 参见 机器学习研究套路: 数据、场景、问题、方法.

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值