李宏毅深度学习--《Unsupervised Learning:Neighbor Embedding》

白色的生活

已于 2022-09-16 00:51:27 修改

阅读量401

点赞数

分类专栏：李宏毅DeepLearning 文章标签：深度学习人工智能机器学习

于 2022-09-15 22:05:03 首次发布

本文链接：https://blog.csdn.net/GuoShao_/article/details/126876882

版权

李宏毅DeepLearning 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

《Unsupervised Learning:Neighbor Embedding》

Manifold Learning
Locally Linear Embedding (LLE)
Laplacian Eigenmaps
T-distributed Stochastic Neighbor Embedding (t-SNE)

Manifold Learning

Manifold Learning(流行学习)是一种非线性的降维方法。

流行学习认为我们观察到的数据实际上是从低维空间映射到高维空间的。由于数据内部特征的限制，高纬空间的数据表示会存在维度上的冗余，即这些数据可以使用较低维度来进行唯一的表示。(参考博文)

【即数据原本是 $x$ 维的,但是现实中我们获取到的数据是 $y (y > x)$ 维的,所以我们收集到的数据实际上是 $x$ 维数据映射到 $y$ 维上的结果。所以我们收集到的 $y$ 维数据是可以通过降维一一映射到原始的 $x$ 维数据】

举一个例子，我们平时的世界地图是一个 $2$ 维的平面，现在将这个 $2$ 维平面卷成一个球塞到一个圆上就变成了 $3$ 维的地球仪， $2$ 维的数据就变成了一个流形；当然没塞之前，它也是一个流形，欧式空间是流形的一种特殊情况(流行不是一个形状，而是一个空间)。

在这里插入图片描述

流体在局部具有欧式空间的性质，能用欧式距离来进行距离计算。即低维的流行映射到高维流行后，局部数据点之间仍然具有欧式空间的性质。

如在地球以上，某两个比较相近的地点之间距离，可以使用欧式距离来计算；但是这两个地点比较远时，如计算南极和北极的距离，这时候就不能使用欧氏距离来计算了。

所以在流体中，只有较近的样本点欧氏距离才会成立。流行学习要做的事就是利用局部性质对高维流行进行降维。

Locally Linear Embedding (LLE)

Locally Linear Embedding(局部线性嵌入)是无监督非线性降维算法,是流行学习的一种。

假设我们观察到的数据在空间上的分布如下图所示：

在这里插入图片描述
我们关注样本点 $x^{i}$ 以及其邻居 $x^j$ ，用 $w_{ij}$ 代表 $x^{i}$ 与 $x^{j}$ 之间的关系。

我们假设 $x^{i}$ 可以由它的邻居线性表示，即：
$x^{i}≈\sum\limits_{j}w_{ij}x^j$

所以 $w_{ij}$ 代表邻居组合成 $x^{i}$ 的权重，也代表了 $x^{i}$ 与邻居之间的关系。因此，找点和点之间的关系转换成了找点与点之间的权重。

所以我们需要找一组 $w_{ij}$ ，使邻居 $x^j$ 能够最小差距的线性表示出 $x^i$ ；即找到一组 $w_{ij}$ 最小化下式：
$_i||x^i−∑_jw_{ij}x^j||_2$

接下来要做的事情就是将 $x^i$ 和 $x^j$ 降维到 $z^i$ 和 $z^j$ ，并且维持关系 $w_{ij}$ 。

对于低维的 $z^i$ 和 $z^j$ ，我们需要根据 $w_{ij}$ 来找到 $z^i$ 和 $z^j$ ；若想在低维空间任维持原来的关系，需要找到一组 $z^i$ 和 $z^j$ ，最小化下式：

$_i||z^i−∑_jw_{ij}z^j||_2$

LLE并没有给出明确的降维函数，只是给出了降维前后的约束条件。

LLE的实际应用中需要选择邻居的个数 $K$ ， $K$ 过大过小都不太好； $K$ 太大时，就会去维护那些由于空间扭曲才导致距离接近的点之间的关系，但是这些关系我们并不希望在降维后依然存在。

Laplacian Eigenmaps

Laplacian Eigenmaps(拉普拉斯特征映射)也是一种典型的流形学习方法。

仅通过两点之间的欧氏距离去判断两点之间的关系是不够充分的，应该还需要观察两点在高密度区域下的距离;如下图，右边通过密度区域去构建的距离才是两点之间真正的距离。

在这里插入图片描述

所以我们可以将数据构建成一张图，在用两点之间的路径长度来近视两点之间的距离。

在这里先回忆一下半监督学习中的Smoothness Assumption的观点：

“相似”的 $x$ 会有相同的 $\hat{y}$ ；即 $Smoothness\ Assumption$ 假设样本 $x$ 的分布是不均匀的，如果 $x_1$ 和 $x_2$ 在一个高密度区域很相近的话( $x^1$ and $x^2$ are close in a high density region)，那么 $\hat{y^1}$ 和 $\hat{y^2}$ 是一样的。

且定义图的平滑程度为：
$S=\frac{1}{2}\sum_{i,j}w_{i,j}(y^i-y^j)^2=y^TLy$
对应的损失函数为：

$L=\sum_{x^r}C(y^r,\hat{y}^r)+λS$

这里的损失函数前一项希望有标签数据能够准确预测；后一项希望无标签数据不同 $c l a ss$ 之间的权重能够尽可能的小。

在降维任务中的原则是：
若 $x^i$ 和 $x^j$ 在一个高密度区域很相近( $w_{ij}$ 比较大)，那么降维后的 $z^i$ 和 $z^j$ 也应该是相近的；

所以我们要做的事是：找到一组 $z^i$ 和 $z^j$ 最小化下式：

$S=\frac{1}{2}∑_{i,j}w_{i,j}(z^i−z^j)^2$
(这里的 $w_{i,j}$ 表示的不是两点的关系，表示的是两点之间的相似度，即与Smoothness Assumption中的含义一致)

但是，当 $z^i$ 和 $z^j$ 都为0时，就能满足最小化了；那为什么Smoothness Assumption中就不会得到这个结果呢？
因为Smoothness Assumption中的损失函数包含两项，当 $z^i$ 和 $z^j$ 都为0，第一项 $\sum_{x^r}C(y^r,\hat{y}^r)$ 就会变得特别大。

所以为了避免 $z^i$ 和 $z^j$ 都为0，需要加上约束条件：
如果降维后的 $z$ 处在 $M$ 维，希望 $z$ 能够占据整个 $M$ 维空间(不存在冗余维度)，即 ${z^1, z^2, … z^N\} = R^M$ 。

而这个 $z$ 最后的结果就是 $Graph\ Laplacian\ L$ 较小特征值所对应的特征向量。这也是这个降维方法被叫做Laplacian Eigenmaps的原因。

T-distributed Stochastic Neighbor Embedding (t-SNE)

T-distributed Stochastic Neighbor Embedding(T分布随机邻域嵌入)是一种非线性降维技术。

LLE和Laplacian Eigenmaps只规定了相邻的点要相近，但没有规定不相近的点要分开。

如下图，是LLE用于手写数据集上的结果；可以看出同类样本点聚集在一起了，但是并没有有效的分开不同类的样本。
在这里插入图片描述

而t-SNE规定了相邻的点要相近，也会将不相近的点分开。

使用t-SNE降维，需要计算原始数据 $x$ 上所有 $x^i$ 和 $x^j$ 之间的相似度 $S(x^i,x^j)$ ，然后进行归一化：
$P(x^j|x^i)=\frac{S(x^i,x^j)}{∑_{k≠i}S(x^i,x^k)}$
将 $x$ 降维到 $z$ 之后，也进行计算相似度 $S'(x^i,x^j)$ ，然后计算相似度：