主成分分析基本原理

最新推荐文章于 2024-04-28 10:52:10 发布

WTomster

最新推荐文章于 2024-04-28 10:52:10 发布

阅读量2.1k

点赞数 2

分类专栏：数学文章标签：统计模型数学建模

数学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

课堂翻译
- 主成分分析

课堂翻译

主成分分析

8.2 基本思想和数学模型

8.2.1 基本思想

主成分通过使用少量的综合性的变量来表示原始数据绝大部分的变化，因此，提出了一种协方差结构的简单描述。

综合变量是原始变量的线性组合，也被叫做主成分。

几何解释

通过旋转原始数据得到一个新的坐标系，使得新的坐标能够表示最大变量的方向

8.2.2 数学模型

原始变量： $X=[x_1,x_2,\cdots,x_p]$ ，每一个 $x_i$ 是一个随机变量，我们假设 $E(x_i)=0$ 。

第一个主成分： $f_1=a_{11}x_1+a_{12}x_2+\cdots+a_{1p}x_p$ ，

其中 $a_1=[a_{11},a_{12},\cdots,a_{1p}]'$ 是下列问题的解：

$max\space var(f_1)=a_1'\sum a_1 ，\qquad s.t.\quad||a_1||^2=1$
第二主成分： $f_2=a_{21}x_1+a_{22}x_2+\cdots+a_{2p}x_p$ ，除了对 $a_1$ 施加的约束外，我们还需要令 $f_1$ 和 $f_2$ 不相关。
$cov(f_1,f_2)=cov\left(\sum_{j=1}^p a_{1j}x_j,\sum_{k=1}^p a_{2k}x_k)\right)=a_1'\sum a_2=0$
因此， $a_2=[a_{21},a_{22},\cdots,a_{2p}]'$ 是下列问题的答案：
$\space var(f_2)=a_2'\sum a_2$

$s.t.\quad ||a_2||=1,\space cov(f_1,f_2)=a_1'\sum a_2=0$

第 $i$ 个主成分： $f_i=a_{i1}x_1+a_{i2}x_2+\cdots +a_{ip}x_p$ ，

其中 $a_i=[a_{i1},a_{i2},\cdots ,a_{ip}]'$ 是以下问题的解：
$max\space var(f_i)=a_i'\sum a_i\\ \begin{aligned} s.t.\quad&\space||a_i||_2=1,\\ &cov(f_1,f_i)=a_1'\sum a_i=0,\\ &cov(f_2,f_i)=a_2'\sum a_i=0,\\ &\vdots \\ &cov(f_{i-1},f_i)=a_{i-1}'\sum a_i=0 \end{aligned}$

第一主成分的解

现在我们来考虑最大值问题
$max\space var(f_1)=a_1'\sum a_1\qquad s.t.\space||a_1||^2=1$
注意 $\sum$ 是一个对称的非负定矩阵，则存在一个正交矩阵 $U=[u_1|u_2|\cdots|u_p]$ 使得

$U^T\sum U=\Lambda= \begin{bmatrix} {\lambda_1}&{}&{}&{}\\ {}&{\lambda_2}&{}&{}\\ {}&{}&{\ddots}&{}\\ {}&{}&{}&{\lambda_p} \end{bmatrix} (8-1)$
其中 $\lambda_1\geq\lambda_2\geq\cdots\ \geq\lambda_p\geq0$ 是协方差矩阵 $\sum$ 的特征值。

从公式8-1中我们得出
$\sum=U\Lambda U^T=\sum_{i=1}^p\lambda_iu_iu_i^T$

$\begin{aligned} var(f_1) &=a_1^T\sum a_1 =a_1^T\left(\sum_{i=1}^P\lambda_iu_iu_i^T\right)a_1 =\sum_{i=1}^p\lambda_ia_1^Tu_iu_i^Ta_1\\ &=\sum_{i=1}^p\lambda_i\langle a_1,u_i\rangle^2\\ &\leq\lambda_1\sum_{i=1}^p\langle a_1,u_i\rangle^2 =\lambda_1a_1^T\left(\sum_{i=1}^pu_iu_i^T\right)a_1 =\lambda_1a_1^Ta_1=\lambda_1 \end{aligned}$

因此 $\lambda_1$ 是 $var(f_1)$ 的一个上界。

另一方面，这个上界是可解的。实际上，如果我们令 $a_1=u_1$ ，则有
$var(f_1)=\sum_{i=1}^p\lambda_i\langle a_1,u_i\rangle^2=\sum_{i=1}^p\lambda_i\langle u_1,u_i\rangle^2=\lambda_1$
以上，我们证明了以下结论：

结论1：

第一主成分是 $f_1=u_{11}x_1+u_{12}x_2+\cdots+u_{1p}x_p$

而 $u_1=[u_{11},u_{12},\cdots,u_{1p}]^T$ 是 $\sum$ 关于最大特征值 $\lambda_1$ 的单位特征向量，此外 $var(f_1)=\lambda_1$ 。

第二主成分求解

先考虑最大化问题：
$max\space var(f_2)=a_2^T\sum a_2\\ s.t.\quad ||a_2||^2=1,\space cov(f_1,f_2)=u_1^T\sum a_2=0$

$\begin{aligned} cov(f_1,f_2) &=u_1^T\sum a_2=u_1^T\left(\sum_{i=1}^p\lambda_iu_iu_i^T\right)a_2\\ &=\sum_{i=1}^p\lambda_iu_1^Tu_iu_i^Ta_2 =\sum_{i=1}^p\lambda_i\langle u_1,u_i\rangle\langle u_i,a_2\rangle=\lambda_1\langle u_1,a_2\rangle \end{aligned}$

因此 $cov(f_1,f_2)=0$ 可以推出 $\langle u_1,a_2\rangle=0$ 。

与第一主成分的求解过程相同，可得
$var(f_2)=\sum_{i=1}^p\lambda_i\langle a_2,u_i\rangle^2=\sum_{i=2}^p\lambda_i\langle a_2,u_i\rangle^2\\ \leq\lambda_2\sum_{i=2}^p\langle a_2,u_i\rangle^2=\lambda_2\sum_{i=1}^p\langle a_2,u_i\rangle^2=\lambda_2$
因此 $\lambda_2$ 是 $var(f_2)$ 的一个上界，并且这个上界是可解的，实际上，我们令 $a_2=u_2$ ，那么
$var(f_2)=\sum_{i=1}^p\lambda_i\langle u_2,u_i\rangle^2=\lambda_2$
至此，我们证明了下述结论：

结论2

第二主成分是 $f_2=u_{21}x_1+u_{22}x_2+\cdots+u_{2p}x_p$ ，而 $u_2=[u_{21},u_{22},\cdots,u_{2p}]^T$ 是 $\sum$ 关于第二大特征值 $\lambda_2$ 的单位特征向量，此外 $var(f_2)=\lambda_2$ 。

第三主成分、第四主成分，等等，这些都可以类似的推导出来。

一般结论：

定理8.1

设 $\sum$ 为原始变量 $X=[x_1,x_2,\cdots,x_p]$ 的协方差矩阵， $\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_p\geq0$ 是 $\sum$ 的特征值， $u_1,u_2,\cdots,u_p$ 是各特征值对应的单位特征向量。则第i个主成分由 $\quad f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p\quad$ 给出。

$f_i$ 的方差 $var(f_i)=\lambda_i$ 。如果一些特征值 $\lambda_i$ 相等，那么对应的主成分 $f_i$ 并不唯一。

8.3 一些重要结论

定理8.2

主成分 $F=[f_1,f_2,\cdots,f_p]$ 不相关，即 $c o v (F, F)$ 是对角矩阵。

证明：从定理8.1可知

$f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p,\space i=1,2,\cdots,p$

$u_i=[u_{i1},u_{i2},\cdots,u_{ip}]^T$ 是协方差阵 $\sum$ 对应于特征值 $\lambda_i$ 的特征向量。
$\begin{aligned} cov(f_i,f_j) &=cov\left( \sum_{k=1}^pu_{ik}x_k,\sum_{l=1}^pu_{jl}x_l \right) \\ &=\sum_{k=1}^p\sum_{l=1}^pu_{ik}u_{jl}cov(x_k,x_l)\\ &=u_i\sum u_j=\lambda_ju_i^Tu_j=\lambda_j\delta_{i,j} \end{aligned}$
定理8.3

设 $\space\sum\space$ 为原始变量 $\space X=[x_1,x_2,\cdots,x_p]\space\space$ 的协方差矩阵， $\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_p\ge0\space$ 是 $\space\sum\space$ 的特征值，并且 $\space f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p,\space i=1,2,\cdots,p\space$ 是主成分。

有
$\sum_{i=1}^pvar(f_i)=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\sigma_{ii}=\sum_{i=1}^pvar(x_i)$
其中 $\space\sigma_{ii}\space$ 是协方差矩阵 $\space\sum\space$ 的对角线元素。

方差不变法则

证明：从定理8.1 我们得知 $var(f_i)=\lambda_i$ ，则
$\sum_{i=1}^pvar(f_i)=\sum_{i=1}^p\lambda_i=trace(\Lambda)\qquad\qquad(8-2)$
由公式8-1，有 $\space U^T\sum U=\Lambda\space$ ，其中 $\space U\space$ 是正交矩阵，因此，我们根据 $t r a c e (A B) = t r a c e (B A)$ 和 $UU^T=I\space$ 推导出
$trace(\Lambda)=trace(U^T\sum U)=trace(UU_T\sum)=trace(\sum)\qquad\qquad(8-3)$
由公式(8-2)和(8-3)，命题得证。

练习：证明 $t r a c e (B A) = t r a c e (A B)$

定理8.4

定理8.3表明总体方差为
$\sigma_T=\sum_{i=1}^p\sigma_{ii}=\sum_{i=1}^p\lambda_i$
因此，第 $\space k \space$ 个主成分的方差解释率为：
$\frac{\lambda_k}{\sigma_T}=\frac{\lambda_k}{\lambda_1+\lambda_1+\cdots+\lambda_p}$
则前 $\space k \space$ 个主成分的方差解释率为：
$\frac{\lambda_1+\lambda_1+\cdots+\lambda_k}{\lambda_1+\lambda_1+\cdots+\lambda_p}$
我们称前者为方差贡献率，后者为总体贡献率。

在许多真实案例中，有大量的原始变量，但是前一个、两个或三个成分就可以解释大部分（例如：80%~90%）的总体方差，因此，在避免损失大量信息的前提下，我们可以使用这些成分来代替原始的 $\space p \space$ 个变量。

定理8.5

设 $\space\sum\space$ 是原始变量 $\space X=[x_1,x_2,\cdots,x_p]\space$ 的协方差矩阵，并且
$f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p$
是主成分，则
$\rho_{f_i,x_k}=\frac{u_{ik}\sqrt{\lambda_i}}{\sqrt{\sigma_{kk}}}$
其中 $\space \rho_{f_i,x_k} \space$ 是 $f_i \space$ 和 $x_k \space$ 的相关系数。

证明

设 $\space c_k=[cov(x_1,f_k),cov(x_2,f_k),\cdots,cov(x_p,f_k)]^T \space$ ，则有 $\space c_k=\sum^Tu_k=\sum u_k=\lambda_ku_k\space$

因此有
$\begin{aligned} \rho(x_i,f_k) =\frac{cov(x_i,f_k)}{\sqrt{var(f_k)}\cdot\sqrt{var(x_i)}} \\ =\frac{\lambda_ku_{ik}}{\sqrt{\lambda_k}\sqrt{\sigma_{ii}}} =\frac{u_{ik}\sqrt{\lambda_k}}{\sqrt{\sigma_{ii}}} \end{aligned}$
定义8.1

我们称 $\space\rho(x_i,f_k)\space$ 为因子载荷，并且称矩阵 $\space L=[l_{ik}]_{i,k=1,2,\cdots,p} \space$ 为因子载荷矩阵。

从定理8.4，我们可以推导出
$L=D^{-1/2}U\Lambda^{1/2},\space D= \left[ \begin{matrix} \sigma_{11}&&& \\ & \sigma_{22}&& \\ && \ddots & \\ &&& \sigma_{pp} \end{matrix} \right],\space \Lambda= \left[ \begin{matrix} \lambda_{1}&&& \\ & \lambda_{2}&& \\ && \ddots & \\ &&& \lambda_{p} \end{matrix} \right]$
如果原始变量的方差都等于1，那么 $\space D=I \space$ ，因此有 $\space L=U\Lambda^{1/2}$

定理8.6

载荷因子 $I_{jk}\space$ 满足下列等式：
$\sum_{k=1}^pl_{ik}^2=1,\space\space i=1,2,\cdots,p$
而且，如果 $var(x_i)=1\space$ 对于所有的原始变量 $x_i\space$ 都成立，那么
$\sum_{i=1}^pl_{ik}^2=\lambda_k,\space\space k=1,2,\cdots,p$
证明

设 $\space X=[x_1,x_2,\cdots,x_p]\space$ 是原始变量的行向量，并且 $\space F=[f_1,f_2,\cdots,f_p]\space$ 是行向量的主成分。则有
$F = X U$
其中 $\space U \space$ 是正交矩阵，正交矩阵的第 $\space k \space$ 列是协方差矩阵 $\space\sum\space$ 关于特征值 $u_k\space$ 的特征向量 $u_k\space$ ，因此 $X=FU^T$ 。
$x_i=u_{i1}f_1+u_{i2}f_2+\cdots+u_{ip}f_p,\space\space i=1,2,\cdots,p$

$\begin{aligned} var(x_i) &=var(u_{i1}f_1+u_{i2}f_2+\cdots+u_{ip}f_p) \\ &=u_{i1}^2var(f_1)+\cdots+u_{ip}^2var(f_p) \\ &=u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p \end{aligned}$

$\begin{aligned} l_{ik}^2 =\rho(x_i,f_k)^2 &=\frac{cov(x_i,f_k)^2}{var(x_i)var(f_k)} \\ &=\frac{u_{ik}^2\lambda_k^2}{(u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p)\lambda_k} \\ &=\frac{u_{ik}^2\lambda_k}{u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p} \end{aligned}$

因此
$\sum_{k=1}^p l_{ik}^2=1,\space\space i=1,2,\cdots,p$
如果 $var(x_i)=1\space$ 对所有的 $\space i \space$ 都成立，那么
$\sum_{i=1}^pl_{ik}^2=\sum_{i=1}^p\frac{u_{ik}^2\lambda_k^2}{\lambda_k}=\lambda_k\sum_{i=1}^pu_{ik}^2=\lambda_k,\space\space k=1,2,\cdots,p$

8.4 PCA与SVD的关系

现在我们来探索奇异值分解与主成分分析之间的联系

假设原始数据由 $\space n\times p\space$ 矩阵 $\space X=[x_1|x_2|\cdots|x_p]\space$ 表示， $x_i$ 表示列向量。

假设我们从原始数据中提取 $\space p \space$ 个无相关性的主成分 $\space F=[f_1|f_2|\cdots|f_p]$ ，则 $\space F=XU\space$ ,其中 $\space U \space$ 是正交矩阵。那么
$cov(F,F)=\frac{1}{n-1}F^TF=\Lambda$
其中 $\space\Lambda\space$ 是对角元素为 $\space\lambda_i=var(f_i)\space$ 的对角矩阵。

现在假设 $\space\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_r\gt0$ ， $\space \lambda_{r+1}=\lambda_{r+2}=\cdots=\lambda_{p}=0$ ，那么
$\Lambda^{-1/2}= \begin{bmatrix} \frac{1}{\sqrt{\lambda_1}} & & & & & \\ & \ddots & & & & \\ & & \frac{1}{\sqrt{\lambda_r}} & & & \\ & & & 0 & & \\ & & & & \ddots & \\ & & & & & 0 \end{bmatrix}$
因此，我们有
$\frac{1}{n-1}\Lambda^{-1/2}F^TF\Lambda^{-1/2}= \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}$
令 $\space F_s= \frac{1}{\sqrt{n-1}}F\Lambda^{-1/2}$ ，则
$\space (F_s)^TF_s= \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}$
换句话说， $F_s$ 的前 $\space r \space$ 列是正交的。

因为 $\space F_s=\frac{1}{\sqrt{n-1}}F\Lambda^{-1/2}=\frac{1}{n-1}XU\Lambda^{-1/2}$ ，我们推导出
$\frac{1}{\sqrt{n-1}}X=F_s\Lambda^{1/2}U^T$
这是对 $\space\frac{1}{\sqrt{n-1}}X\space$ 的奇异值分解。

为了得出全部的奇异值分解公式，我们只需要用一些新的单位向量来代替 $\space p-r\space$ 个零向量，从而生成正交矩阵 $F_o$ ，那么
$\frac{1}{\sqrt{n-1}}X=F_o\Lambda^{1/2}U^t$
这是 $\frac{1}{\sqrt{n-1}}$ 全部的奇异值分解。

WTomster

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
主成分分析基本原理

8.2 基本思想和数学模型8.2.1 基本思想主成分通过使用少量的综合性的变量来表示原始数据绝大部分的变化，因此，提出了一种协方差结构的简单描述。综合变量是原始变量的线性组合，也被叫做主成分。几何解释通过旋转原始数据得到一个新的坐标系，使得新的坐标能够表示最大变量的方向8.2.2 数学模型原始变量：X=[x1,x2,⋯ ,xp]X=[x_1,x_2,\cdots,x_p]X=[x1,x2,⋯,xp]，每一个xix_ixi是一个随机变量，我们假设E(xi)=0E(x_i)=0E(xi)
复制链接

扫一扫

专栏目录