机器学习与深度学习系列连载：第一部分机器学习（十三）半监督学习（semi-supervised learning）

最新推荐文章于 2024-07-02 15:51:11 发布

人工智能插班生

最新推荐文章于 2024-07-02 15:51:11 发布

阅读量1.9k

点赞数

分类专栏：机器学习文章标签：半监督学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dukuku5038/article/details/82929071

版权

机器学习专栏收录该内容

19 篇文章 95 订阅

订阅专栏

在实际数据收集的过程中，带标签的数据远远少于未带标签的数据。我们据需要用带label 和不带label的数据一起进行学习，我们称作半监督学习。

Transductive learning：没有标签的数据是测试数据
Inductive learning：没有标签的数据不是测试数据

为什么没有标签的数据会帮助我们学习呢？是因为没有标签数据的分布可能会告诉我们一些潜在的规律。

1.半监督生成模型 Semi-supervised Learning for Generative Model

我们回忆一下监督学习的生成模型，计算先验概率，然后通过概率模型估计，计算分类概率。
在这里插入图片描述

是不是也有半监督的概率生成模型？答案是可以。

没有标记的数据帮助我们重新评估的 $P(C_{i})$ 和 $P(x|C_{i})$ 等分布数据

寻找概率最大的 $P(C_{i})$ 和 $P(x|C_{i})$
$P(x|C_{i})$ 符合高斯分布

算法流程如下，但是最后的结果与初始值的初始化有关系，结构和EM算法类似

需要综合考虑有标记数据的max likelihood和没有标记数据的max likelihood

2. 低密度分割 Low-density Separation

大原则：非黑即白
（1）自训练 Self-training
在这里插入图片描述

（2）基于熵的估计 Entropy-based Regularization
我们估计的分布函数，如何衡量他的好坏

所以我们让他越小越好：

考虑到了Entropy因素，Loss函数最后可以写成

（3）半监督的SVM （Semi-supervised SVM）
semi-SVM 中，我们假设没有标签的数据可以任意标注（计算复杂风度高）
在这里插入图片描述
我们取margin 最大的和error最小的

3. 平滑性假设 Smoothness Assumption

近朱者赤，近墨者黑

假设：相似的x 有着相同的分类

x 并不是uniform 统一的
如果 $x_{1}$ 和 $x_{2}$ 在高密度区域中相似，那么他们的结果也就 $y_{1}$ 和 $y_{2}$ 一致

在这里插入图片描述
（1）聚类，然后标注 Cluster and then Label

（2）以图为基础的方法 Graph-based Approach

在这里插入图片描述
很显然，当图中的点能走通，说明是一类。
创建图的方法（ Graph Construction）：

定义 $x_{i}$ 和 $x_{j}$ 的相似度s( $x_{i}$ , $x_{j}$ )
加入边edge
K Nearest Neighbor
e-Neighborhood
- edge 的权重与s( $x_{i}$ , $x_{j}$ )称比例

s( $x_{i}$ , $x_{j}$ )一般表示为Gaussian Radial Basis Function:：
在这里插入图片描述

定义图的平滑程度 Define the smoothness of the labels
s 越小越平滑：

如果我们定义s为：

4. Better Representation

去芜存菁，化繁为简具体内容我们再降维的章节介绍。（下一节）

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229，斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里，感谢这些经典课程，向他们致敬！

人工智能插班生

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。