李宏毅深度学习--《Semi-supervised Learning》

白色的生活

已于 2022-09-02 22:56:18 修改

阅读量674

点赞数 1

分类专栏：李宏毅DeepLearning 文章标签：深度学习机器学习人工智能

于 2022-09-02 22:54:45 首次发布

本文链接：https://blog.csdn.net/GuoShao_/article/details/126669626

版权

李宏毅DeepLearning 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

Semi-supervised Learning

Introduction
为什么半监督学习能够起作用？
Semi-supervised Learning for Generative Model
Low-density Separation
Entropy-based Regularization
Smoothness Assumption
Graph-based Approach

Introduction

监督学习数据集： $\{(x^r,\hat{y}^r)\}^R_{r=1}$ ；即所有数据都有被标记了

半监督学习数据集： ${(x^r,y^r)\}_{r=1}^R, \{x^u\}_{u=R}^{R+U}$ ；即存在一部分数据未被标记

通常情况下， $U >> R$

半监督学习分为两张情况：

$Transductive\ learning$ (直推式学习)：
未标记数据是测试集数据；即将未标记的测试集数据当作无表情的训练集使用。(仅使用测试集的 $f e a t u re$ ，适用于测试集已知的情况下)
$Inductive\ learning$ (归纳学习法)：
未标记数据不是训练集数据；即训练集存在一部分未标记数据，不将训练集的 $f e a t u re$ 用于训练。(适用于事先并不知道测试集的情况下，这种情况相比直推式学习)

为什么半监督学习能够起作用？

$The\ distribution\ of\ the\ unlabeled\ data\ tell\ us$ $so m e t hin g .$

如下图，灰色数据是未标记数据，红色是使用标记数据训练的猫狗分类决策边界；

在这里插入图片描述
根据这些未标记的数据，可以假设得到一条更好的决策边界，如下图：

在这里插入图片描述

半监督学习的使用都伴随着假设，假设的合理性会决定模型的 $p er f or man ce$ 。如上图，也行左下角的未标记数据是一只狗，那么这条新的决策边界就不是最好的决策边界。

Semi-supervised Learning for Generative Model

先简单回顾以下 $Generative\ Model$ ，存在一组属于 $C_1$ 、 $C_2$ 其中一个类别的训练集数据： ${x^r∈C_1,C_2\}$ ；生成模型会根据这组数据计算出 $C_1$ 的分布( $mean_1=u^1,covariance_1=Σ$ )和 $C_2$ 的分布( $mean_2=u^2,covariance_1=Σ$ )；

确定了分布之后，就可以算出先验概率 $P(x_{new}|C_1)$ 和 $P(x_{new}|C_2)$ ；使用贝叶斯公式就能算出后验概率 $P(C_1|x_{new})$ 和 $P(C_2|x_{new})$ ，即新的样例 $x_{new}$ 是 $C_1$ 或者 $C_2$ 的概率值。

在半监督生成概率模型：

通过已经标记的数据，可以确定数据分布并确定一个决策边界，如下图：
在这里插入图片描述
但是考虑了那些未标记的数据，会发现原来的分布并不是比较好的，这时候就会考虑这些未标记的数据，从而去更新原来的数据分布，从而形成一个新的决策边界，如下图：

详细步骤如下：

初始化参数： $θ={P(C_1),P(C_2),u^1,u^2,Σ}$
步骤 $1$ :使用已标记数据计算未标记数据的后验概率： $P_θ(C_1|x^u)$
步骤 $2$ :更新模型
$P(C_1)=\frac{N_1+\sum_{x^u}P(C_1|x^u)}{N}$
$u^1=\frac{1}{N} \sum_{x^r∈C_1}x^r+\frac{1}{\sum_{x^u}P(C_1|x^u)}\sum_{x^u}P(C_1|x^u)x^u$
其余参数同理。得到了一组新的参数 $θ$ ，再回到步骤 $1$ ，重复直到参数 $θ$ 收敛。
以上方法是可以收敛的，但一开始的初始化参数 $θ$ 会影响收敛的结果。

我们在考虑未标记数据 $x^u$ 时，会将它看作时可划分的，一部分属于 $C_1$ ，一部分属于 $C_2$ ，所以
$P_θ(x^u)=P_θ(x^u|C_1)P(C_1)+P_θ(x^u|C_2)P(C_2)$

此时 $P_θ(x^u)≠1$ ，我们想让 $x^u$ 要么属于 $C_1$ ，要么属于 $C_2$ ；所以希望这个概率值越大越好。

则损失函数从原来的
$logL(θ)=\sum_{(x^r,\hat{y}^r)}logP_θ(x^r|\hat{y}^r)$

变成了

$logL(θ)=\sum_{(x^r,\hat{y}^r)}logP_θ(x^r|\hat{y}^r)+\sum_{x^u}logP_θ(x^u)$

Low-density Separation

接下来介绍一个基于Low-density Separation的半监督学习方法。

$Low-density\ Separation$ 认为这个世界是非黑即白的，即 $C_1$ 和 $C_2$ 分类的交界处数据密度是很低的，中间会存在一条鸿沟，接下来通过未标记数据将存在于鸿沟中的决策边界选出来即可，如下图：

在这里插入图片描述
$Low-density\ Separation$ 的思想就是 $S e l f - t r ainin g$ ，步骤如下：

步骤 $1$ ：通过已标记数据训练出模型 $f^*$
步骤 $2$ ：用模型 $f^*$ 去标记 $unlabeled\ data\ set$
步骤 $3$ ：抽取一部分标记的 $unlabeled\ data\ set$ ，并将它加入到 $labeled\ data\ set$ .
然后回到步骤再次重复步骤 $1$ - $3$

这个方法对 $R e g ress i o n$ 是不管用的， $R e g ress i o n$ 预测的是一个数值，带回到模型种，对 $Total\ Loss$ 的贡献值为 $0$ 。

该方法与生成模型比较相似，不同之处在于：

$S e l f - t r ainin g$ 是 $hard\ label$ ：强制性将未标记样本归为某一个类
$Generative\ Model$ 用的是 $soft\ label$ ：假设一笔数据可以从多个类中进行抽取，即不同部分属于不同的类别。

如，当使用神经网络预测 $x^u$ 的结果为 $\begin{bmatrix} 0.7 \\ 0.3 \\ \end{bmatrix}$ ；
$hard\ label$ 会将其变成 $\begin{bmatrix} 1 \\ 0 \\ \end{bmatrix}$ ， $soft\ label$ 之后依然是 $\begin{bmatrix} 0.7 \\ 0.3 \\ \end{bmatrix}$ 。

可以看到对于神经网络来说 $soft\ label$ 的结果是没有用的，原因同上面的 $re g ress i o n$ 。

所以可以看出 $low\ density\ separation$ 就是通过强制分类来提升分类效果的方法

Entropy-based Regularization

该方法属于Low-density Separation的进阶版；

假设 $y^u$ 是模型对未标记样本 $x^u$ 的概率分布预测，当预测值集中在某一类上，那么模型的表现是比较好的，如下图：

在这里插入图片描述

当预测值比较分散时，模型的表现是比较差的，如下图：

在这里插入图片描述

所以我们希望模型预测出来的预测值能够比较集中在某个类上；首先对好坏的评估进行量化，这里采用信息熵来表示：
$E(y^u)=-\sum^5_{m=1}y^u_mln(y^u_m)$

个人觉得这个方法的想法是：
不要对未标记的数据进行摸棱两可的预测，预测出来的结果信息量少一点，能够更加的确定属于这个类

对上图预测结果计算其熵值，如下图；可以看出当 $E(y^u)$ 较小时，预测值得分布就会比较集中，模型就会比较好。

在这里插入图片描述

总之我们的目标是在已经标记的数据集上要正确分类，在未标记数据上的预测值能够集中，即 $E(y^u)$ 越小越好。因此在原来的损失函数：
$L=\sum_{x^r}C(y^r,\hat{y}^r)$
变成：

$L=\sum_{x^r}C(y^r,\hat{y}^r)+λ\sum_{x^u}E(y^u)$

Smoothness Assumption

这个假设的想法是：近朱者赤，近墨者黑。

这个方法会假设：“相似”的 $x$ 会有相同的 $\hat{y}$ ；即 $Smoothness\ Assumption$ 假设样本 $x$ 的分布是不均匀的，如果 $x_1$ 和 $x_2$ 在一个高密度区域很相近的话( $x^1$ and $x^2$ are close in a high density region)，那么 $\hat{y^1}$ 和 $\hat{y^2}$ 是一样的。

如下图， $x^2$ 和 $x^1$ 是处于一个高密度区域的，所以它们的预测结果是一样的；而 $x^2$ 和 $x^3$ 虽然比较近，但不属于同一个密度区域，预测值就会不同。
在这里插入图片描述

举一个例子，存在两张图片，一张是人的左侧脸，另一张是同一个人的右侧脸，如下图；这两张图片在像素上差别很大，但是预测的结果应该都是属于一个人的。根据距离也许会将这两张图归为不同类。
在这里插入图片描述
若数据集中还存在 $45°$ 侧脸、正面，如下图；那么根据Smoothness Assumption的理论，左侧脸和右侧脸就会是比较像的了，认为预测的结果应该是相同的。

在这里插入图片描述

Smoothness Assumption在文章分类上比较有效，如存在天文和旅行两类文章，各自有自己的专属词汇；

如果专属词汇之间存在很大的重合，如下图；那么就会比较好去分类。

在这里插入图片描述

但是实际情况是这两类文章在很大情况下很难存在重合的词汇，如下图；
在这里插入图片描述

若使用Smoothness Assumption的理论，当无标签数据足够的多时，就会产生一种传递过度的形式，建立文档之间的桥梁。如上图 $d 1 、 5 、 6 、 73$ 应该是一类， $d 4 、 8 、 9 、 2$ 应该是一类。

实现Smoothness Assumption最简单的方式是Cluster and then Label；即先将样本(有标记样本+无标记样本)分成几个簇( $c l u s t er$ )，然后根据结果簇中有标签样本的数量对未标记样本进行贴标签，然后再进行学习得到新的簇。

当这种方法不一定管用，需要确保同类样本能够分到同一个簇中。对于图像分类来说，如果单纯的使用像素之间的相似度来划分，那么分类的效果会比较差，对此需要设置一个编码网络，将图片转成一组 $f e a t u res$ ，这样聚类会比较有效。

Graph-based Approach

我们也可使用Graph-based Approach来实现Smoothness Assumption，通过图来表达 $x^1$ 、 $x^2$ 处在同一个高密度区域内这件事；即表达 $x^1$ and $x^2$ are connected by a high density path这件事。

将所有的数据看作点构成一张图，有时候建立数据之间的关系图是比较容易的，如网页之间的跳转转关系、论文之间的引用；但大部分情况下都需自己去寻找数据之间的关系图。

如何建立一张关系图是一件具有探索性的事情，需要我们凭借经验和直觉来做。构建关系图步骤如下：

定义两个数据样本 $x^i、x^j$ 之间的相似度函数 $s(x^i,x^j)$ 。
【对于图片，建议使用编码器将图片转换成一组 $f e a t u res$ 后在进行计算】
可以定义 $s(x^i,x^j)=e^{-γ||x^i-x^j||^2}$ ,这里的 $x^i、x^j$ 为向量。经验上来说，指数操作是可以提升模型性能的，因为只有当 $x^i、x^j$ 比较接近时 $s(x^i,x^j)$ 才会比较大；只有距离稍微远一些， $s(x^i,x^j)$ 就会迅速下降，变得比较小。
Add edge：
(1)K Nearest Neighbor：与 $K$ 个最近的数据点相连

（2）e-Neighborhood：e范围内的点都进行连接
此外，还可以为边添加上权重(Edge weight)，Edge weight与 $s(x^i,x^j)$ 成正比。