ML Note 3.4 - PCA

最新推荐文章于 2024-04-12 09:38:11 发布

LutingWang

最新推荐文章于 2024-04-12 09:38:11 发布

阅读量152

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/LutingWang/article/details/103949142

版权

ML 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最大方差思想
最小均方误差思想
处理高维数据
相关系数矩阵
结果分析
- 贡献率
- 被提取率

Principal components analysis 尝试寻找 $n$ 维原空间的一个 $M$ 维子空间，使样本集在其上的投影保留了尽量多的信息。在 PCA 之前，我们首先需要对数据集归一
$x_i := x_i - \bar x$

使用设计矩阵的定义 $[x_1, x_2,\dots,x_m]^T$ 我们可以完成从原空间到子空间的映射
$Y = X P$

其中 $[u_1, u_2, \dots, u_M]$ 是由一组单位正交向量构成的变换矩阵。对于保留尽量多的原始信息这一目标，存在着下面两种理解

$Y$ 的样本方差尽可能大
从 $Y$ 恢复到原空间后偏差尽可能小

下面将会证明这两种理解是等价的。

最大方差思想

假设 $M = 1$ 则算法只需找到一个向量 $u$ 满足
$\begin{array}{rl} \max\limits_u & ||Xu||^2 / m\\ s.t. & u^Tu = 1 \end{array}$

设协方差矩阵
$\Sigma = \frac{1}{m} X^TX$

则优化目标可以化为 $u^T\Sigma u$ 。应用拉格朗日乘数法可以得到
$\frac{\partial}{\partial u} (u^T\Sigma u + \lambda(u^Tu - 1)) = \Sigma u + \lambda u = 0$

因此 $u$ 和 $\lambda$ 分别是 $\Sigma$ 的特征向量和对应特征值。重新考察目标函数
$u^T\Sigma u = \lambda u^Tu = \lambda$

也就是说，样本在特征向量 $u$ 方向上的投影，所构成的样本集的方差即为其特征值。因此 $u$ 应该是 $\Sigma$ 的最大特征值对应的特征向量，称为 first principal components 。一般地对于 $\ne 1$ 的情况，可以循环地执行以下步骤

选取原空间中的第一主成分 $u$
取原空间对于向量 $u$ 的补空间作为下一次循环的原空间

最小均方误差思想

假设存在原空间的某个坐标系 $[u_1, u_2, \dots, u_n]$ ，取其中前 $M$ 个坐标轴 $[u_1, u_2, \dots, u_M]$ 构成子空间坐标变换矩阵 $P$ 。不妨设某个样本 $x$ 在这样的坐标系下具有坐标 $(x_1, x_2, \dots, x_n)$ ，则容易证明其对应的 $(x_1, x_2, \dots, x_M)$ 。

现在我们希望找到一种方法使 $y$ 恢复到原空间，并与 $x$ 尽可能一致。但是由于缺少 $x_{M + 1}, x_{M + 2}, \dots, x_n$ 的信息，我们只能用其均值 $0$ 来进行估计。也就是说重构得到的向量
$\tilde x = (y_1, y_2, \dots, y_M, 0, \dots, 0)$

这时就会引入重构误差
$\tilde x||^2 = \sum\limits_{i = M + 1}^n x_i^2 = \sum\limits_{i = M + 1}^n u_i^Txx^Tu_i$

对于所有样本，均方误差的定义如下
$\sum\limits_{i = M + 1}^n u_i^T \Sigma u_i$

接下来的讨论与最大方差思想类似。不同点在于这里需要选出 $n - M$ 个特征向量使特征值最小。这些特征向量将作为补空间的一组基，而子空间的基则是剩余的 $M$ 个主成分。因此在结论上，最小均方误差思想和最大方差思想一致。

处理高维数据

模型求解可以通过 SVD 完成，但是对于高维数据 $\gg m$ 计算量会大一些。对于这种情况我们可以计算矩阵 $XX^T$ 的特征值 $\lambda$ 和特征向量 $u$ 。这个矩阵的维数是 $m$ 因此比较容易计算。算出来之后可以证明
$X^TX(X^Tu) = X^T\cdot \lambda u$

因此 $X^Tu$ 即为 $\Sigma$ 的特征向量，同时特征值 $\lambda$ 并没有改变。因为¹ $||X^Tu||^2 = \lambda$ 所以归一化可得特征向量
$\frac{X^Tu}{\sqrt{\lambda}}$

结果分析

设 $F_j = Xu_j$ 表示第 $j$ 个主成分的取值。不难证明
$F_i^TF_j = u_i^TX^TXu_j = \begin{cases} m\lambda_j & i = j\\ 0 & i \ne j \end{cases}$

因为 $X$ 经过了归一化，因此
$\begin{array}{rcl} Var(F_j) &=& \lambda_j\\ Cov(F_i, F_j) &=& 0 \end{array}$

贡献率

从最大方差的角度思考，我们的目标是最大化 $\sum_{j = 1}^M Var(F_j)$ 。因此某个主成分对整体的贡献可以被 $\lambda$ 所度量。定义第 $j$ 主成分贡献率
$c_j = \frac{\lambda_j}{\sum_{j = 1}^n \lambda_j}$

不难看出随着 $j$ 的增大，贡献率在逐渐减小，但累积贡献率 $\sum_{i = 1}^j c_i$ 却在增大。实际应用中，一般对累积贡献率设定某个阈值 $\xi$ 来确定主成分的个数。

被提取率

对于原数据中的每个特征，其信息可能分散到多个主成分中
$[u_1, u_2, \dots, u_n]y$

我们同样使用方差作为信息的度量，设
$Var(x_i) = \sigma_i^2 = Var\left(\sum_{j = 1}^n (u_j)_iF_j\right) = \sum_{j = 1}^n (u_j)_i^2\lambda_j$

其中 $u_j)_i$ 表示主成分 $u_j$ 的第 $i$ 个元素。定义
$\Omega_i = \sum_{j = 1}^M \frac{(u_j)_i^2\lambda_j}{\sigma_i^2}$

为特征 $x_i$ 的被提取率。事实上相关系数
$\rho(x_i, F_j) = \frac{(u_j)_i\sqrt{\lambda_j}}{\sigma_i}$

因此被提取率还可以被定义为
$\Omega_i = \sum_{j = 1}^M \rho^2(x_i, F_j)$

设矩阵 $A^TA$ 有特征值 $\lambda_i$ 和特征向量 $v_i$ ，则 $\begin{array}{rcl} ||Av_i||^2 &=& (Av_i)^TAv_i\\ &=& v_i^TA^TAv_i\\ &=& v_i^T(\lambda_iv_i)\\ &=& \lambda_i \end{array}$ ↩︎

LutingWang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ML Note 3.4 - PCA

Contents最大方差思想最小均方误差思想处理高维数据相关系数矩阵结果分析贡献率被提取率Principal components analysis 尝试寻找 nnn 维原空间的一个 MMM 维子空间，使样本集在其上的投影保留了尽量多的信息。在 PCA 之前，我们首先需要对数据集归一xi:=xi−xˉx_i := x_i - \bar xxi:=xi−xˉ使用设计矩阵的定义 X=[x...
复制链接

扫一扫