32、并行图基半监督学习:原理、算法与可扩展性探索

并行图基半监督学习:原理、算法与可扩展性探索

1. 半监督学习概述

半监督学习(SSL)是利用少量有标签数据和大量无标签数据来训练决策函数的过程。在许多应用中,标注训练数据既耗时又容易出错。例如,语音识别需要大量精心标注的语音数据才能构建准确的系统;在互联网搜索的文档分类中,准确标注大量网页也是不可行的。因此,SSL在机器学习应用中非常有用,因为它只需要标注少量可用数据。

SSL与直推式学习问题相关。一般来说,如果一个学习器是为仅在封闭数据集上进行预测而设计的,且测试集在训练时已知,那么它就是直推式学习器。在实践中,直推式学习器可以进行修改以处理未见数据。

在SSL中,通常会做出以下两个合理假设:
- 流形假设 :数据项 $x \in X$ 位于嵌入在高维空间中的低维流形上。有两种解释方式:一是数据可能无论类别如何,都位于一个全局低维流形上;二是每个类别的数据可能位于其特定的流形上,不同类别的流形可能相交也可能不相交。在这两种情况下,使用有标签和无标签数据都能更准确地确定类别之间的决策边界。
- 平滑性假设 :如果高密度区域中的两个点 $x_1$ 和 $x_2$ 根据给定的距离度量(可能依赖于流形)很接近,那么它们对应的输出标签也可能接近或相同。换句话说,类别之间的决策边界将位于低密度区域。也可以表述为,如果两点之间存在一条始终位于同一连接高密度区域内的轨迹,那么这两点可能具有相同的标签。

2. 半监督学习的历史方法

SSL有很长的研究历史,早期方法包括:
- 自训练 :使用在对无标签数据进行先

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值