台湾NTU李宏毅的Machine Learning (2017,Fall),部分要点总结5:Semi-supervised Learning

Semi-supervised Learning

在这里插入图片描述
Semi-supervised Learning可以分为Transductive learning与Inductive learning,二者的区别就在于训练用的unlabeled data是不是其testing data,因为没有label,所以这不能算cheating。
在这里插入图片描述
假设unlabeled data的分布可以说明一些东西,但通常都有人为的假设,有可能会出错,比如图中猫和狗分布在一起,可能因为背景都是绿色的。有点类似auto-encoder,都是假设分布靠近的是相似的,不过auto-encoder是自动的,直接learn,Semi-supervised Learning会做一些假设。

for Generative Model

假设概率符合高斯分布,就像之前说生成模型举的例子,The unlabeled data ?? help re-estimate prior probability ?(?1), ?(?2), and Gaussian parameters: ?1,?2, Σ。值得注意的是,这里只有一个Σ,即两个分布公用一个。因为unlabeled data的存在,可以修正只用labeled data计算参数带来的偏差。
在这里插入图片描述
对每个unlabeled data计算其后验概率,?(?2)与?2也是同样的方法计算。

Low-density Separation

假设各类之间连接是低密度的,即分离明显
在这里插入图片描述
之间有块明显的低密度区域。

Self-training

在这里插入图片描述
用labeled data训练出一个模型f*,再用这个 f∗ 来预测unlabeled data,预测出的就叫 pseudo label。然后从原先的unlabeled data中选一部分与pseudo label组合成新的labeled data,重复训练。怎么选出这部分是自己定的,也可以对每一个数据提供一个权重,类似之前的boosting。
regression 中,是没有用的,因为用预测出来的数字重新用来做训练,并不会影响模型的参数。
在做 self-training 时,其实就是把某个未标记数据指定一个分类(Hard label ),而在 generative model 中,其实就是把未标记数据对应于各个分类的概率计算出来(Soft label )。

Entropy-based Regularization

在这里插入图片描述
Ym指是m的概率,yu是概率分布,我们用熵来表示yu的分布有多集中,因为我们不希望像Self-training一样hard label,也不想要模棱两可的答案。将这个regularization加在loss function,可以帮助我们用labeled data训练的同时,在unlabeled data上也能得到比较明确的答案,代表我们利用了unlabeled data。λ调整labeled data与unlabeled data之间的权重。
Outlook: Semi-supervised SVM

Smoothness Assumption

在这里插入图片描述
平滑过渡的感觉,假设如果x1、x2之间有高密度的路径做连接,则两者是相似的。

Cluster and then Label

在这里插入图片描述
聚类

Graph-based Approach

Representing the data points as a graph is a way to know ?1 and ?2 are close in a high density region (connected by a high density path)
Sometimes you have to construct the graph yourself.
Graph-based Approach的难点在于怎么建立样本之间的联系,有些情况这是很简单的,比如网页与网页之间、论文的引用被引用,对于无法直观联系的数据,我们可以通过以下计算构建graph。
在这里插入图片描述
首先需要定义相似度,一般可以用 Gaussian Radial Basis Function (RBF) 来定义,这个函数可以让相似度随着距离的增加而迅速减小。
定义完相似度之后,就可以逐渐把数据点之间相连的边加上去,加边可以用 kNN 或者 e-Neighborhood 的方法来做。kNN指最近的k个点连起来,e-Neighborhood指e范围内的点连起来。然后设置边的权重,和 s(xi,xj) 成比例。
The labelled data influence their neighbors. 通过传播的方式。
在这里插入图片描述
S定量的描述smooth的程度(越小越平滑)。y 是 R+U 维的向量(所有的有标记和无标记数据),L=D−W,W 是所有数据之间两两的连接权重,相当于邻接矩阵。D 是对角矩阵,对角线上的值是每个数据点所有的连接的权重之和。
在这里插入图片描述
smooth可以放在neural network的任何地方。

Better Representation

要发现在表象下的潜在因子,The latent factors (usually simpler) are better representations。从事物的外在变化寻找内部的潜在因素。

引用1引用2

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值