并行图基半监督学习:原理、算法与优化
1. 半监督学习概述
半监督学习(SSL)是一种利用少量有标签数据和大量无标签数据来训练决策函数的方法。在许多实际应用中,标注训练数据既耗时又容易出错。例如,语音识别需要大量精心标注的语音数据才能构建准确的系统;在互联网搜索的文档分类中,准确标注大量网页也是不可行的。因此,SSL在机器学习的许多应用中是一种非常有用的技术,因为它只需要标注相对少量的可用数据。
SSL与直推式学习问题相关。一般来说,如果一个学习器是为仅在一个封闭数据集上进行预测而设计的,且测试集在训练时就已知,那么它就是直推式学习器。实际上,直推式学习器可以进行修改以处理未见过的数据。
在SSL中,通常会做出以下两个合理假设,以使无标签数据中可用的分布 $p(x)$ 的属性能够影响 $p(y|x)$:
- 流形假设 :数据项 $x \in X$ 位于嵌入在高维空间中的低维流形上。有两种解释方式:一是数据可能不考虑类别,位于嵌入在高维空间中的一个全局低维流形上;二是每个类别的数据可能位于其特定的流形上,不同类别的流形可能相交也可能不相交。无论哪种情况,使用有标签和无标签数据都可以更准确地确定类之间的决策边界。
- 平滑性假设 :如果在高密区域中的两个点 $x_1$ 和 $x_2$ 根据 $X$ 上的给定距离度量(可能依赖于流形)很接近,那么它们对应的输出标签也可能很接近或相同。换句话说,类之间的决策边界将位于低密区域。也可以表述为,如果两点之间存在一条始终位于同一连接高密区域内的轨迹,那么这两点可能具有相同的标签。
超级会员免费看
订阅专栏 解锁全文
842

被折叠的 条评论
为什么被折叠?



