李宏毅机器学习笔记-半监督学习

ZEERO~

已于 2023-10-19 23:24:17 修改

阅读量684

点赞数

分类专栏：深度学习文章标签：机器学习笔记学习

于 2023-10-18 00:51:25 首次发布

本文链接：https://blog.csdn.net/weixin_43249038/article/details/133896319

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文探讨了半监督学习在面对大量未标记数据的场景中的应用，介绍了生成模型、低密度分离和光滑度假设，以及自训练和熵基正则化的策略。特别强调了在图像识别中使用深度自动编码器进行特征提取和聚类的重要性。

摘要由CSDN通过智能技术生成

在这里插入图片描述
半监督学习，一般应用于少量带标签的数据（数量R）和大量未带标签数据的场景（数量U），一般来说，U>>R。

半监督学习一般可以分为2种情况，一种是transductive learning，这种情况下，将unlabeled data的feature利用进来。另外一种是inductive learning，这种情况下，在训练的整个过程中，完全不看任何unlabeled data的信息。

为什么要做semi-supervised learning呢，因为我们现实中大多数情况下，搜集数据比较容易，但是数据标注比较困难。包括我们的人生中，我们自己也是一直在做semi-supervised learning.
在这里插入图片描述
为什么semi-supervised learning会有用呢，因为unlabeled data可以告诉我们一些信息。通常，我们在做semi-supervised learning时，会做出一些假设，这个假设很关键，会影响最后的结果。

这节课的主要讲述4个部分，第一个是讲generative model时如何做semi-supervised learning。然后在讲述2个常用的通用假设，分别是low density separation假设和smoothness假设，最后，semi-supervised learning还有一个比较好用的一招是better representation。

1、Generative Model

在这里插入图片描述
假设说我们已知标签的数据，有两个类别C1和C2，假设他们是属于高斯分布。我们可以画出我们的决策边界，对于任何一个数据，可以求出这个数据x属于类别C1的概率，如上图所示。

但是，这个时候如果再给了一个unlabeled data，那么我们上面的决策边界就会受到影响。这在直觉上是这样。
在这里插入图片描述
实际操作是怎么做的呢？
首先，先初始化一组参数 $\theta$ 。初始化可以随机设定参数，虽然说初始化的值也很重要。
第一步，根据初始设定的参数，可以估计每个unlabeled data属于class 1的概率。
第二步，算出第一步的概率之后，便可以update 我们的model。
后续不断重复第一步和第二步。
如果我们知道EM算法的话，那么第一步就是E的过程，第二步就是M的过程。
在这里插入图片描述
这件事情直觉上可以理解为何这样做，我们实际上还是分析下原因，如上图所示。

2、Low density Separation Assumption

在这里插入图片描述
我们认为这个世界是一个非黑即白的世界。意思就是，在两个类别的交界处，密度是比较低的，data量是很少的，基本上不太会出现data。Low density最具代表性的方法就是self training。

self training的方法非常的直觉和通俗易懂，我们不做过多的讲述。
我们现在需要来考虑的一个问题时，self training的方法如果用来做回归regression，会怎么样呢？work吗？
我们可以花5s的时间思考一下。
答案其实是无效的。拿最简单的线性回归为例，不断self training出来的数据，再加入到model中进行训练，model不会发生变化，因此这招对于regression是无效的。
在这里插入图片描述
self training的过程和之前的generative model的过程还是非常相似的，但也有不同之处。主要的不同之处在于hard label和soft label的区别。以神经网络为例，我们可以想下hard label和soft label哪个有效？
实际上，如果以ANN为例，soft label是完全无效的。为什么呢？因为在现有的参数上这个unlabeled data都可以做到[0.7,0.3]的输出，如果此时标签还是[0.7,0.3]，那么就完全不需要更新参数了，不需要更新model了。

Entropy-based Regularization

在这里插入图片描述
熵要越小越好。可以在损失函数时将unlabeled data的熵一起加入作为最小化项。

3、Smoothness Assumption

在这里插入图片描述

Smoothness Assumption的基本思想是，如果x相似，那么具有相同的标签。更具体的来说，如果数据的分布并不平均，那么假如两个x之间数据流非常密集，那么两个x具有相同的标签。如上图所示，虽然x2与x3的距离更近，但是x1和x2具有相同的标签。
这种假设往往更符合真实假设，因为同一种类别之间会有非常多的过渡形态。

如何实现Smoothness Assumption

1 cluster and then label

在这里插入图片描述
最简单的方法是聚类和打标。这个方法的前提假设是我们可以将同一个class的label都聚集在一起。但是，例如说在图像识别中，可能同一个class会长的很不像，不同的class会长的很像。因此，如果要使得这个方法有用，那么你的cluster的方法要很强。
在我们尝试的时候，可以用deep autoencoder来实现。
一般先用deep autoencoder进行call feature，然后再call clustering，这样一般就会work。

2 graph-based approach

在这里插入图片描述
我们使用graph来表达connected by a high density path这件事情。我们把所有的data points都建立成一个graph。这样的话，如果有2个点，在graph上是相连的，是走的到的，那么他们就是同一个class.
有时候，建立这个graph是一件很自然的事情，但有时候，我们要自己想办法去建立这个graph。
在这里插入图片描述
一个graph对结果的影响是非常重要的。但是这个事情做起来，很多的时候，凭的是自己的直觉。通常我们可以这样做：

首先需要定义如何去计算他们之间的相似度，例如说对于图像，直接从像素层面去建立相似度，可能效果会比较差。但是如果经过auto-encoder之后再建立相似度，结果可能会比较好。

算完相似度之后，我们便可以开始建立graph了。可以利用KNN的方法，相连固定k个值，也可以用e-neighborhood，只相连相似度超过一定阈值的点。也可以用RBF函数来计算相似度。使用RBF函数的优点在于，只要距离远一点点，那么相似度就下降非常快。
在这里插入图片描述
在这种机制下，类别会不断的传播。

之前算是定性地计算这种graph，接下来我们来定量地表示。
我们需要定义一个量，smoothness，例如说上图中存在2个例子，左右都有4个点，连线上的数字代表的是权重weight。现在我们来考虑下，左右两边哪边比较smooth一些。我们都会觉得左边更加smooth一些。我们可以用一个公式来定量的描述左右两边到底有多smooth。smooth程度用s表示，左边s=0.5，右边s=3。s值越小越好。
在这里插入图片描述
s的公式描述可以简化写成上图中的公式。其中W就是每个点之间的连接权重。例如说x1和x2之间的权重是2，因此w[1,2]和x[2,1]均为2.D则是一个对角矩阵，将w的每一行加起来刚好可以得到D上的对角元素。L也称为Graph Laplacian。
在这里插入图片描述
在训练ANN模型时，我们可以将smoothness作为损失项加入进去，类似于正则项一样。当然，这个smooth可以放在网络结构的任何地方，不一定要求输出要smooth，也可以要求其他地方要smooth。

ZEERO~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习笔记-半监督学习

半监督学习，一般应用于少量带标签的数据（数量R）和大量未带标签数据的场景（数量U），一般来说，U>>R。半监督学习一般可以分为2种情况，一种是，这种情况下，将的feature利用进来。另外一种是，这种情况下，在训练的整个过程中，完全不看任何的信息。为什么要做呢，因为我们现实中大多数情况下，搜集数据比较容易，但是数据标注比较困难。包括我们的人生中，我们自己也是一直在做为什么会有用呢，因为可以告诉我们一些信息。通常，我们在做时，会做出一些假设，这个假设很关键，会影响最后的结果。
复制链接

扫一扫

专栏目录