李宏毅深度学习--《Unsupervised Learning》+《PCA》+《Matrix Factorization》

白色的生活

已于 2022-09-13 23:48:08 修改

阅读量598

点赞数

分类专栏：李宏毅DeepLearning 文章标签：深度学习聚类算法

于 2022-09-03 19:56:36 首次发布

本文链接：https://blog.csdn.net/GuoShao_/article/details/126679738

版权

李宏毅DeepLearning 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

《Unsupervised Learning》+《PCA推导》

Unsupervised Learning
Clustering
K-means
Hierarchical Agglomerative Clustering (HAC)
Distributed Representation
PCA推导
总结：
PCA-decorrelation
Another Point of View
PCA - Pokémon
NMF(non-negative matrix factorization)
Weakness of PCA
Matrix Factorization(矩阵分解)

Unsupervised Learning

无监督学习可以分为：

化简为繁：将复杂的 $in p u t$ 变成简单的 $o u tp u t$ ；训练集数据只有 $x$ ，没有 $y$ 。
聚类( $Cl u s t er in g$ )
降维( $Dimension\ Reduction$ )
无中生有( $G e n er a t i o n$ )：随机给模型一个数字，模型会生成不同的图像；训练集数据没有 $x$ ，只有 $y$ 。

Clustering

聚类：将数据样本按照相似度分成若干簇。如下图中没有 $l ab e l$ 的九张图片， $Cl u s t er in g$ 任务就是将这九张图片按照相似度分成 $3$ 类：猫、狗、鸟。【这里的分类个数不是唯一的，也可成地上跑的、天上飞的两类】

在这里插入图片描述

K-means

可参考吴恩达课K-means笔记

聚类最常用的方法就是 $K - m e an s$ 。任务是将数据集 $X={x^1,\cdots,x^n,\cdots,x^N}$ 分成 $K$ 个簇。

步骤如下：

$St e p 1 :$ 选定簇的个数 $K$
$St e p 2 :$ 从数据集中随机抽取 $K$ 个聚类中心 $c^i,i=1,2\cdots,K$
从 $X$ 中抽取的目的是保证每个簇都至少有一个样本点。
$St e p 3 :$ 按照样本划分给最"近"的中心点
$St e p 4 :$ 更新样本中心点(各簇的 $f e a t u re$ 的平均值)
重复 $St e p 3 、 4$ ，直到中心点收敛

Hierarchical Agglomerative Clustering (HAC)

聚类的其他方法： $H A C$

步骤如下：

$St e p 1 ：$ 建立一棵树；(类似哈夫曼算法)
如下图，选择相似度最大的两个样本连接成一个新的结点，新节点的向量值为两个样本点 $v ec t or$ 的平均；重复上述操作形成一颗二叉树。
选择一个 $t h res h o l d$ 进行裁剪；
选取阈值然后“砍”树，如下图；在蓝色阈值处砍树后，可将数据分成三个簇。

再如下图，分成了三个簇：

所以 $H A C$ 簇的数量取决于砍树的位置。

Distributed Representation

$Cl u s t er in g$ 不太好的地方就是它会强迫样本点只属于某个类别，这样会丢失部分信息。正确的做法应该是使用一个 $v ec t or$ 来描述样本点， $v ec t or$ 的每个元素都代表这个样本点的属性。这种方法就叫做 $Distributed\ Representation$ ，或者叫做 $Dimension\ Reduction$ 。

如下图，某个角色都带有下面六个属性：

在这里插入图片描述
现在人物 $A$ 是处于强化系和放出系之间的，若使用 $Cl u s t er in g$ 来分类人物 $A$ ，结果会将 $A$ 分到强化系中去，从而失去了 $A$ 还带有放出系属性的信息；

$Distributed\ Representation$ 会对人物 $A$ 输出一个 $v ec t or$ ，如下图，从 $v ec t or$ 中不仅能知道 $A$ 有强化系，还有放出系的属性。

在这里插入图片描述

若人物 $A$ 原来的 $f e a t u re$ 是高纬的，然后使用了一个低纬的 $v ec t or$ 来描述 $A$ ；这个过程就叫做降维 $Dimension\ Reduction$

为什么降维能够有效呢？这里我的理解是某个维度上的冗余。

例如下图，存在不同的手写数字 $3$ ( $28\times28$ 的图片)，完全可以使用一维的旋转角度 $θ$ 来描述这一组 $3$ ，从而从 $28\times28$ 的 $ima g e$ 变成了一维数据。(因为知道是数据 $3$ 了，所以表示数据 $3$ 的图片像素是冗余的，只需要知道旋转角度就能想象的图片的样子)

在这里插入图片描述

如何进行降维呢？

$Feature\ selection$ ：从 $f e a t u res$ 中拿掉一些直观上对结果没有影响的维度。
如下图，从 $x_1、x_2$ 中拿掉 $x_1$ 。

但是这个方法有时候并不管用，可能某两个维度之间都存在联系，拿掉谁都不合适。
$PC A$ ：吴恩达PCA笔记
$PC A$ 做的事情就是将原始数据 $x$ 投影到某个低纬度平面上，且确保最小程度的信息丢失。

假设要将 $x$ 映射成一维的，我们先要找一个一维平面 $w^1$ ，然后价格 $x$ 投影到 $w^1$ 上得到降维后的数据 $z_1$ 。

$z_1=w^1\cdot x$
在这里插入图片描述

什么叫做最小程度的信息丢失呢？
看下图，最小程度的信息丢失可以理解为降维后数据 $z_1$ 要保留最大的方差 $(v a r ian ce)$ 。
【红色线条的维度上的信息就是降维后保留的数据信息，橙色的就是降维后去除的信息】

在这里插入图片描述

若要将 $x$ 降维成 $n$ 维的数据，那需要找一个 $n$ 维的平面 $W$ ，计算 $x$ 投影到 $W$ 上的值 $z$ ；且 $z$ 的方差最大

所以 $PC A$ 要做的事情就是找到 $W$ ，计算表达式：
$z=W\cdot x$

且 $Var(z_i)$ 最大， $Var(z_i)$ 表达式:
$Var(z_i)=\frac{1}{N}\sum_{z_i}(z_i-\bar{z_i} )^2$

即各维度都能最大化保留信息。

$z_i$ ：降维后 $z$ 的第 $i$ 个元素，
$Var(z_i)$ 是对数据集中所有样本进行计算的

需要注意的一点是：

当我们求 $w^1$ 时，需要计算 $z_1=w^1\cdot x$ ,即计算 $x$ 在 $w^1$ 上的投影；且 $w^1$ 满足 $Var(z_1)$ 最大化。

当我们计算 $w^2$ 时，也是上述同样的步骤；则算出来的 $w^1、w^2$ 都是一样的，为了确保 $w^1、w^2$ 不同，需要加上约束： $w^1、w^2$ 相互正交(即 $W$ 是一个正交矩阵)。

PCA推导

降维公式：
$z=W\cdot x$

任务：找到使 $Var(z_i)$ 最大的 $W$ 。

先讨论 $z_1$ ，降维公式

$z_1=w^1\cdot x$

任务：找到使 $Var(z_1)$ 最大的 $w^1$ ( $W$ 的第一行)；

$Var(z_1)=\frac{1}{N}\sum_{z_1}(z_1-\bar{z_1} )^2$

假设 $w^1||_2=1$ ，即 $w^1$ 是个单位向量。

为了更方便的寻找 $w^1$ ；先将我们的目标 $Var(z_1)$ 化简：
$\bar{z_1} =\frac{1}{N}\sum_{N个样本} z_1=\frac{1}{N}\sum w^1\cdot x=w^1\cdot \frac{1}{N}\sum x =w^1\cdot \bar{x}$

$Var(z_1)=\frac{1}{N}\sum _{z_1}(z_1-\bar{z_1})^2=\frac{1}{N}\sum_x(w^1\cdot x-w^1\cdot \bar{x})^2=\frac{1}{N}\sum_x(w^1\cdot (x- \bar{x}))^2\tag1$

而(下面式子随意转置的原因是 $a^Tb$ 是个标量)：
$(a\cdot b)^2=(a^Tb)^2=a^Tba^Tb=a^Tb(a^Tb)^T=a^Tbb^Ta$

上式带入到 $(1)$ ：
$Var(z_1)=\frac{1}{N}∑(w^1)^T(x−\bar{x} )(x−\bar{x})^Tw^1=\frac{1}{N}(w^1)^T∑(x−\bar{x} )(x−\bar{x})^Tw^1 \tag2$

令 $\frac{1}{N}∑(x−\bar{x} )(x−\bar{x})^T=Cov(x)$ 为 $S$ ：

$Var(z_1)=(w^1)^TSw^1$

这个 $S$ 是关于对角线对称且是一个正定矩阵，所有特征值都是正数

所以任务变成了找到 $w^1$ ，使 $w^1)^TSw^1$ 最大化，和一个约束条件： $w^1‖_2=(w^1)^Tw^1=1$ 。

可以想到使用拉格朗日乘数法(目标函数+ $α$ 约束条件)：
$g(w^1)= (w^1)^TSw^1−α((w^1)^Tw^1−1)\tag3$

对 $w^1$ 的每个元素进行求导：
$\begin{cases}∂g(w^1)∕∂w_1^1=0\\\\∂g(w^1)∕∂w_2^1=0\\…\end{cases}$

带入 $(3)$ ,得到：

$Sw^1−αw^1=0$

即：
$Sw^1=αw^1$
可以得出：要找的 $w^1$ 其实就是 $S$ 的特征向量。

同时左乘 $w^1)^T$ ：

$w^1)^TSw^1=Var(z_1)=α(w^1)^Tw^1=α$

可以得出：要找的 $w^1$ 是 $S$ 的特征值 $α$ 最大的那个特征向量。

设 $w^1$ 找到的特征值是 $λ_1$ ；下面去找 $w^2$ ；

任务：
找到 $w^2$ 使 $Var(z_2)=(w^2)^TSw^2$ 最大，且 $w^2||_2=(w^2)^Tw^2=1、(w^2)^Tw^1=0$

同样使用拉格朗日乘数法：
$g(w^2)= (w^2)^TSw^2−α((w^2)^Tw^2−1) −β((w^2)^Tw^1−0)\tag4$

对 $w^2$ 各元素求导：
$\begin{cases}∂g(w^2)∕∂w_1^2=0\\\\∂g(w^2)∕∂w_2^2=0\\…\end{cases}$

带入 $(4)$ 化简得：
$Sw^2−αw^2−βw^1=0$

同时左乘 $w^1)^T$ ：
$\color{red}{(w^1)^TSw^2} \color{black}{−α}\color{blue}{(w^1)^Tw^2}\color{black}{−β}\color{green}{(w^1)^Tw^1}\color{black}{=0\tag5}$

红色部分其实就是个标量，可以进行化简：

$w^1)^TSw^2=((w^1)^TSw^2)^T=(w^2)^TS^Tw^1=(w^2)^TSw^1=λ_1(w^2)^Tw^1=0$

蓝色部分 $w^1、w^2$ 相互正交：
$w^1)^Tw^2=0$

绿色部分 $w^1||$ 等于1：
$w^1)^Tw^1=1$

带入(5)，得到 $β = 0$ ：
$β=0:Sw^2−αw^2=0\ \ \ 即Sw^2=αw^2$

所以 $w^2$ 也是 $S$ 的特征向量，避免与 $w^1$ 重复，这里取 $S$ 第二大特征值对应的特征向量

总结：

将 $x$ 降成 $n$ 维，求出 $S = C o v (x)$ 的特征向量，取前 $n$ 个最大特征值对应的特征向量组成 $W$ ，然后计算 $z=W\cdot x$ ， $z$ 就是降维后的 $n$ 维向量。

PCA-decorrelation

降维后的 $z$ ，计算其协方差 $C o v (z) = D$ ， $D$ 是一个对角矩阵。

推导过程如下：
在这里插入图片描述

PCA降维后，不同维度之间的相关性变成0，即降维后的新 $f e a t u res$ 之间不存在联系。这样做的好处是：减少feature之间的联系从而减少模型所需的参数量

即降维后的 $z$ 不用考虑 $z_1\cdot z_2$ 、 $z_2\cdot z_3$ 等这些参数组合成的函数式，直接使用 $z_1、z_2、z_3、…$ 即可。因此模型得到了简化，参数量也变少了，能够一定程度上避免过拟合。

Another Point of View

另一个视角看 $PC A$ ：

以手写数字为例子，我们可以将手写数字看作由若干 $Basic\ Component$ 组成；如下图，数字 $7$ 由 $u^1、u^3、u^5$ 这三个 $Basic\ Component$ 组成。
在这里插入图片描述

这样的好处是，使用 $K$ 个 $v ec t or$ 就可以表示原来 $28\times 28$ 的手写数字图片了，即将 $28\times 28$ 的手写数字 $x$ 降维成 $K$ 个 $v ec t or$ 的表现形式。

$x$ 的表达式如下：
$x≈c_1u^1+c_2u^2+⋯+c_Ku^K+\bar{x}$

$\bar{x}$ 表示所有样本的平均
$c_i$ 表示第 $i$ 个 $Basic\ Component$ 的权重

将上述式子的 $\bar{x}$ 左移：
$x−\bar{x}≈c_1u^1+c_2u^2+⋯+c_Ku^K=\hat{x} \tag1$

接下来我们的任务就是找到这 $K$ 个 $Basic\ Component$ ，使 $||(x−\bar{x})−x||_2$ 最小；即找到最能表示 $x−\bar{x}$ 的 $K$ 个 ${u^1,…,u^K\}$ ，最小化函数如下：

在这里插入图片描述

回顾之前的 $PC A$ ： $z = W x$ ；其实 $W$ 的 $K$ 个行向量就是使 $L$ 最小化的 ${u^1,…,u^K\}$ 。

证明如下：

式子 $(1)$ 可写成下图的矩阵表示形式，最小化 $L$ 就是使下图两边的矩阵尽可能的相等。
在这里插入图片描述

上图的矩阵 $X$ 可以通过奇异矩阵分解( $S V D$ )来求解，如下图；矩阵 $U$ 就是 ${u^1,…,u^K\}$ ， $\sum\ V$ 就是权重矩阵 $c$ 。

在这里插入图片描述
根据 $S V D$ 的结论，上图的 $U$ 的列向量是 $XX^T$ 的 $K$ 个最大特征值对应特征向量。所以 $U^T$ 其实就是之前 $PC A$ 需要求的 $W$ 。

因此，PCA做的事情可以看作：找到最能近似表示原始数据 $K$ 个向量，最小化 $L$ 的过程。而PCA投影的结果就是权重矩阵 $c$

投影结果是c的证明：
$\sum V=[u^1 … u^K]c$
.
$U$ 是正交矩阵，所以 $U^T=U^{-1}$ ，同时左乘一个 $U^T$ ，结果如下：
$U^TX=E \sum V=Ec=c$
.
因为 $U^T=W$ ，所以：
$WX=\sum V=c$

PCA - Pokémon

举一个宝可梦的例子

假设一共有800只宝可梦，每个宝可梦由6个feature表示，所以我们使用PCA降维最多能降到6维；那么我们要降到几维呢？

可以通过降维后的6个特征向量对应的6个特征值来决定；假设第 $i$ 个特征向量对应的特征值为 $λ_i$ ，第i个特征值所占的比例 $r a t i o$ 为：
$ratio=\frac{λ_i}{λ_1+λ_2+λ_3+λ_4+λ_5+λ_6}$

$r a t i o$ 计算结果如下：
在这里插入图片描述
可以看出前4个特征值所占的比例较大，后两个影响较小，所以使用PCA降维到4维。

特征值 $λ_i$ 的大小可以理解为将原始数据投影到对应特征向量 $u_i$ 后数据的离散程度(方差)。
$λ_i$ 越大，离散程度越大，所能表示的信息就会越多

若这四个特征向量 $PC 1 - 4$ 如下图所示(这里的 $PC 1 - 4$ 相当于上面SVD的 $u_{1-4}$ )：

在这里插入图片描述

可以看出PC3可能表示的是具有特殊防御力，但攻击和血量较低的宝可梦；PC4可能表示的是血条比较高，但是速度比较慢的宝可梦。

将特征向量 $PC$ 与宝可梦的 $features\ vector$ 做内积，可以得到宝可梦在该特征向量 $PC$ 投影的值，也代表了宝可梦的一个属性。如宝可梦与PC4做内积的值比较大，表示该宝可梦是一个血条比高的。

将800个宝可梦投影到PC3和PC4上(分别与PC3、PC4做内积)，可视化如下：

在这里插入图片描述
可以看出，左上角的两个点投影在PC4的值比较高，所以这两个宝可梦的血条会比较高；右下角的两个点投影在PC3值比较高，所以这两个宝可梦具有特殊的防御力。

PCA - MNIST

举一个手写数字识别的例子：

将手写数字识别降维到30维，则每个手写数字图像可表示为：
$digit=a_1w^1+a_2w^2+⋯+a_30w^30$
这里的 $w_i$ 都是一张 $28\times 28$ 的图片；将 $w_i$ 可视化后如下：

在这里插入图片描述

所有的手写数字图片都可以由这30个 $Basic\ Component$ 线性表示。

可以看到很多 $Basic\ Component$ 很抽象，想象不出怎么线性组成手写数字；这是因为在线性表示的时候，系数 $a$ 是可正可负的，即最后的手写数字的表示是由这些 $Basic\ Component$ 加加减减组合成的，并不是向之前举例的数字7由简单的笔画相加而成。

NMF(non-negative matrix factorization)

若想要得到类似笔画的 $Basic\ Component$ ，则需要使用非负矩阵分解，确保系数 $a$ 和 $Basic\ Component$ 的数值都是正的。

对手写数据集采用 $NMF$ 后，对 $Basic\ Component$ 的可视化结果如下所示：

在这里插入图片描述
可以看出使用 $NMF$ 后，手写数据图片可以由 $Basic\ Component$ 简单的线性相加组成； $Basic\ Component$ 变成了数字的笔画。

Weakness of PCA

PCA是 $U n s u p er v i se d$ 的；如下图，PCA对数据进行降维后，可能橙色和蓝色的数据点就会混杂在一起，从而无法划分。(LDA是考虑了数据标签的降维方式，属于监督学习)
PCA是 $L in e a r$ 的。如下图，我们希望能够将右上角的 $S$ 拉成一个平面，这是一个非线性的操作；但PCA做不到，PCA只整将 $S$ 压扁(投影)到某一个平面上。

Matrix Factorization(矩阵分解)

PCA中涉及到的一个思维是矩阵分解。

我们以宅男买手办为例子，如下图； $A - E$ 分别表示5位宅男，表头表示4个不同的人物手办，表中的数据表示手办的购买数量。
在这里插入图片描述

如第一行第一个元素表示 $A$ 购买了5个第一个女角色的手办。

我们可以想象到，表中的元素值与宅男的特性和角色的特性是由关联的。假设宅男和手办角色背后都对应着呆(呆萌)和傲(傲娇)两个属性，如下图：

在这里插入图片描述
可以看到A与第一个角色都比较偏向傲娇，即A与第一个手办的内积(投影)值较大，所以A与第一个角色会更匹配，会购买较多的第一个女手办。

但在现实世界中，不一定会按照呆和傲这两个属性来决定表格中的数值。所以我们假设宅男背后的潜在特性为 $r^A…r^E$ ，人物背后的潜在特性为 $r^1…r^4$ ；如下图：

在这里插入图片描述

而表中的元素值由 $r^{A-E}$ 和 $r^{1-4}$ 内积计算，如下图：

在这里插入图片描述

M：宅男数量
N：角色数量
K：潜在特性的维度

对于上图的右侧的 $r^{A-E}$ 和 $r^{1-4}$ 可以通过SVD来计算，其中SVD分结后的 $Σ$ 可以归为 $r^{A-E}$ ，也可以归为 $r^{1-4}$ 。

如果存在表格元素缺失的时候，SVD就不能用了，我们可以使用梯度下降来计算 $r^{A-E}$ 和 $r^{1-4}$ ，如下图：
在这里插入图片描述

其中，仅对表中有数据的部分计算损失值，即表中的?不会对 $L$ 造成影响，通过梯度下降就可以计算出 $r^{A-E}$ 和 $r^{1-4}$ 了。

假设 $r^{A-E}$ 和 $r^{1-4}$ 计算结果如下：
在这里插入图片描述
可以看出A和B宅男是比较类似的，角色1和2是比较类是的。

通过内积计算就可以预测表格中的缺失值了，如下图：
在这里插入图片描述

Matrix Factorization可以使用在推荐系统中，预测用户对某间物品的评分(这里相当于宅男购买手办的数量)；具体可参考吴恩达老师的协同过滤推荐系统笔记。

为了考虑的更加全面，可以添加一些偏置参数；如 $b_A$ 、 $b_1$ ， $b_A$ 可表示A宅男有多喜欢买手办， $b_1$ 可表示角色1有多受欢迎。
则表中的元素计算式变为：
在这里插入图片描述
损失函数 $L$ 变为：

当然我们可以在 $L$ 中添加正则项；接下来就是梯度下降来寻找 $r^{A-E}$ 和 $r^{1-4}$ 。