台湾NTU李宏毅的Machine Learning (2017,Fall)，部分要点总结5：Semi-supervised Learning

最新推荐文章于 2024-03-18 21:16:36 发布

强殖装甲凯普

最新推荐文章于 2024-03-18 21:16:36 发布

阅读量351

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_38163755/article/details/84676298

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

文章目录

Semi-supervised Learning

Semi-supervised Learning

在这里插入图片描述
Semi-supervised Learning可以分为Transductive learning与Inductive learning，二者的区别就在于训练用的unlabeled data是不是其testing data，因为没有label，所以这不能算cheating。

假设unlabeled data的分布可以说明一些东西，但通常都有人为的假设，有可能会出错，比如图中猫和狗分布在一起，可能因为背景都是绿色的。有点类似auto-encoder，都是假设分布靠近的是相似的，不过auto-encoder是自动的，直接learn，Semi-supervised Learning会做一些假设。

for Generative Model

假设概率符合高斯分布，就像之前说生成模型举的例子，The unlabeled data ?? help re-estimate prior probability ?(?1), ?(?2), and Gaussian parameters: ?1,?2, Σ。值得注意的是，这里只有一个Σ，即两个分布公用一个。因为unlabeled data的存在，可以修正只用labeled data计算参数带来的偏差。
在这里插入图片描述
对每个unlabeled data计算其后验概率，?(?2)与?2也是同样的方法计算。

Low-density Separation

假设各类之间连接是低密度的，即分离明显
在这里插入图片描述
之间有块明显的低密度区域。

Self-training

在这里插入图片描述
用labeled data训练出一个模型f*，再用这个 f∗ 来预测unlabeled data，预测出的就叫 pseudo label。然后从原先的unlabeled data中选一部分与pseudo label组合成新的labeled data，重复训练。怎么选出这部分是自己定的，也可以对每一个数据提供一个权重，类似之前的boosting。
在 regression 中，是没有用的，因为用预测出来的数字重新用来做训练，并不会影响模型的参数。
在做 self-training 时，其实就是把某个未标记数据指定一个分类（Hard label ），而在 generative model 中，其实就是把未标记数据对应于各个分类的概率计算出来（Soft label ）。

Entropy-based Regularization

在这里插入图片描述
Ym指是m的概率，yu是概率分布，我们用熵来表示yu的分布有多集中，因为我们不希望像Self-training一样hard label，也不想要模棱两可的答案。将这个regularization加在loss function，可以帮助我们用labeled data训练的同时，在unlabeled data上也能得到比较明确的答案，代表我们利用了unlabeled data。λ调整labeled data与unlabeled data之间的权重。
Outlook: Semi-supervised SVM

Smoothness Assumption

在这里插入图片描述
平滑过渡的感觉，假设如果x1、x2之间有高密度的路径做连接，则两者是相似的。

Cluster and then Label

在这里插入图片描述
聚类

Graph-based Approach

Representing the data points as a graph is a way to know ?1 and ?2 are close in a high density region (connected by a high density path)
Sometimes you have to construct the graph yourself.
Graph-based Approach的难点在于怎么建立样本之间的联系，有些情况这是很简单的，比如网页与网页之间、论文的引用被引用，对于无法直观联系的数据，我们可以通过以下计算构建graph。
在这里插入图片描述
首先需要定义相似度，一般可以用 Gaussian Radial Basis Function (RBF) 来定义，这个函数可以让相似度随着距离的增加而迅速减小。
定义完相似度之后，就可以逐渐把数据点之间相连的边加上去，加边可以用 kNN 或者 e-Neighborhood 的方法来做。kNN指最近的k个点连起来，e-Neighborhood指e范围内的点连起来。然后设置边的权重，和 s(xi,xj) 成比例。
The labelled data influence their neighbors. 通过传播的方式。
在这里插入图片描述
S定量的描述smooth的程度（越小越平滑）。y 是 R+U 维的向量（所有的有标记和无标记数据），L=D−W，W 是所有数据之间两两的连接权重，相当于邻接矩阵。D 是对角矩阵，对角线上的值是每个数据点所有的连接的权重之和。
在这里插入图片描述
smooth可以放在neural network的任何地方。

Better Representation

要发现在表象下的潜在因子，The latent factors (usually simpler) are better representations。从事物的外在变化寻找内部的潜在因素。

引用1，引用2

强殖装甲凯普

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
台湾NTU李宏毅的Machine Learning (2017,Fall)，部分要点总结5：Semi-supervised Learning

文章目录Semi-supervised LearningSemi-supervised LearningSemi-supervised Learning可以分为Transductive learning与Inductive learning，二者的区别就在于训练用的unlabeled data是不是其testing data，因为没有label，所以这不能算cheating。假设unla...
复制链接

扫一扫

专栏目录