©PaperWeekly 原创 · 作者|燕皖
单位|渊亭科技
研究方向|计算机视觉、CNN
在现实生活中,无标签的数据易于获取,而有标签的数据收集起来通常很困难,标注也耗时和耗力。在这种情况下,半监督学习(Semi-Supervised Learning)更适用于现实世界中的应用,近来也已成为深度学习领域热门的新方向,该方法只需要少量有带标签的样本和大量无标签的样本,而本文主要介绍半监督学习的三个基本假设和三类方法。
Base Assumptions
在什么假设下可以应用半监督算法呢?半监督算法仅在数据的结构保持不变的假设下起作用,没有这样的假设,不可能从有限的训练集推广到无限的不可见的集合。具体地假设有:
1.1 The Smoothness Assumption
如果两个样本 x1,x2 相似,则它们的相应输出 y1,y2 也应如此。这意味着如果两个输入相同类,并且属于同一簇,则它们相应的输出需要相近,反之亦成立。
1.2 The Cluster Assumption
假设输入数据点形成簇,每个簇对应于一个输出类,那么如果点在同一个簇中,则它们可以认为属于同一类。聚类假设也可以被视为低密度分离假设,即:给定的决策边界位于低密度地区。两个假设之间的关系很容易看出。
一个高密度区域,可能会将一个簇分为两个不同的类别,从而产生属于同一聚类的不同类,这违反了聚类假设。在这种情况下,我们可以限制我们的模型在一些小扰动的未标记数据上具有一致的预测,以将其判定边界推到低密度区域。
1.3 The Manifold Assumption
(a)输入空间由多个低维流形组成,所有数据点均位于其上;
(b)位于同一流形上的数据点具有相同标签。
Consistency Regularization
深度半监督学习的一个新的研究方向是利用未标记的数据来强化训练模型,使其符合聚类假设,即学习的决策边界必须位于低密度区域。这些方法基于一个简单的概念,即如果对一个未标记的数据应用实际的扰动,则预测不应发生显著变化,因为在聚类假设下,具有不同标签的数据点在低密度区域分离。
具体来说,给定一个未标记的数据点 及其扰动的形式 ,目标是最小化两个输出之间的距离:
流行的距离测量 d 通常是均方误差(MSE),Kullback-Leiber 散度(KL)和 Jensen-Shannon 散度(JS),我们可以按以下方式计算这些度量,其中