文章目录
Semi-supervised Learning
Semi-supervised Learning可以分为Transductive learning与Inductive learning,二者的区别就在于训练用的unlabeled data是不是其testing data,因为没有label,所以这不能算cheating。
假设unlabeled data的分布可以说明一些东西,但通常都有人为的假设,有可能会出错,比如图中猫和狗分布在一起,可能因为背景都是绿色的。有点类似auto-encoder,都是假设分布靠近的是相似的,不过auto-encoder是自动的,直接learn,Semi-supervised Learning会做一些假设。
for Generative Model
假设概率符合高斯分布,就像之前说生成模型举的例子,The unlabeled data ?? help re-estimate prior probability ?(?1), ?(?2), and Gaussian parameters: ?1,?2, Σ。值得注意的是,这里只有一个Σ,即两个分布公用一个。因为unlabeled data的存在,可以修正只用labeled data计算参数带来的偏差。
对每个unlabeled data计算其后验概率,?(?2)与?2也是同样的方法计算。
Low-density Separation
假设各类之间连接是低密度的,即分离明显
之间有块明显的低密度区域。
Self-training
用labeled data训练出一个模型f*,再用这个 f∗ 来预测unlabeled data,预测出的就叫 pseudo label。然后从原先的unlabeled data中选一部分与pseudo label组合成新的labeled data,重复训练。怎么选出这部分是自己定的,也可以对每一个数据提供一个权重,类似之前的boosting。
在 regression 中,是没有用的,因为用预测出来的数字重新用来做训练,并不会影响模型的参数。
在做 self-training 时,其实就是把某个未标记数据指定一个分类(Hard label ),而在 generative model 中,其实就是把未标记数据对应于各个分类的概率计算出来(Soft label )。
Entropy-based Regularization
Ym指是m的概率,yu是概率分布,我们用熵来表示yu的分布有多集中,因为我们不希望像Self-training一样hard label,也不想要模棱两可的答案。将这个regularization加在loss function,可以帮助我们用labeled data训练的同时,在unlabeled data上也能得到比较明确的答案,代表我们利用了unlabeled data。λ调整labeled data与unlabeled data之间的权重。
Outlook: Semi-supervised SVM
Smoothness Assumption
平滑过渡的感觉,假设如果x1、x2之间有高密度的路径做连接,则两者是相似的。
Cluster and then Label
聚类
Graph-based Approach
Representing the data points as a graph is a way to know ?1 and ?2 are close in a high density region (connected by a high density path)
Sometimes you have to construct the graph yourself.
Graph-based Approach的难点在于怎么建立样本之间的联系,有些情况这是很简单的,比如网页与网页之间、论文的引用被引用,对于无法直观联系的数据,我们可以通过以下计算构建graph。
首先需要定义相似度,一般可以用 Gaussian Radial Basis Function (RBF) 来定义,这个函数可以让相似度随着距离的增加而迅速减小。
定义完相似度之后,就可以逐渐把数据点之间相连的边加上去,加边可以用 kNN 或者 e-Neighborhood 的方法来做。kNN指最近的k个点连起来,e-Neighborhood指e范围内的点连起来。然后设置边的权重,和 s(xi,xj) 成比例。
The labelled data influence their neighbors. 通过传播的方式。
S定量的描述smooth的程度(越小越平滑)。y 是 R+U 维的向量(所有的有标记和无标记数据),L=D−W,W 是所有数据之间两两的连接权重,相当于邻接矩阵。D 是对角矩阵,对角线上的值是每个数据点所有的连接的权重之和。
smooth可以放在neural network的任何地方。
Better Representation
要发现在表象下的潜在因子,The latent factors (usually simpler) are better representations。从事物的外在变化寻找内部的潜在因素。