《统计学习方法》学习笔记第十六章 PCA(principal component analysis)

最新推荐文章于 2022-05-10 16:23:06 发布

LittleFish0820

最新推荐文章于 2022-05-10 16:23:06 发布

阅读量386

点赞数

分类专栏：统计学习方法文章标签： pca降维

本文链接：https://blog.csdn.net/m0_46459047/article/details/112660332

版权

统计学习方法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 总体主成分分析

1.1 基本想法

（以前学过，很好理解，不放了）

1.2 定义和导出

$\bm{x}=(x_1,x_2,\cdots,x_m)^T$
$\bm\mu=E(\bm x)=(\mu_1,\mu_2,\cdots,\mu_m)$
$\Sigma=\mathbf {cov}(\bm x,\bm x)=E[(\bm x-\bm\mu)(\bm x-\bm \mu)^T]$

$\alpha_i=(\alpha_{1i},\alpha_{2i},\cdots,\alpha_{mi})^T, i=1,2,\cdots,m$
$y_i=\alpha_i^T\bm x=\alpha_{1i}x_1+\alpha_{2i}x_2+\cdots+\alpha_{mi}x_m\qquad (1)$

Properties
① $E(y_i)=\alpha_i^T\mu,\quad i=1,2,\cdots,m$
② $\mathbf{var}(y_i)=\alpha_i^T\Sigma\alpha_i,\quad i=1,2,\cdots,m$
③ $\mathbf{cov}(y_i,y_j)=\alpha_i^T\Sigma\alpha_j,\quad i,j=1,2,\cdots,m$

Definition(总体主成分) 给定一个如(1)所示的线性变换，如果它们满足下列条件：
① $\alpha_i^T\alpha=1,\quad i=1,2,\cdots,m$
② $\mathbf{cov}(y_i,y_j)=0(i\ne j)$
③一般地， $y_i$ 是与 $y_1,y_2,\cdots,y_{i-1}(i=1,2,\cdots,m)$ 都不相关的 $\bm{x}$ 的所有线性变换中方差最大的

1.3 主要性质

Theorem 设 $\bm{x}$ 是m维随机向量， $\Sigma$ 的特征值为 $\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_m\ge0$ ，特征值对应的单位特征向量分别是 $\alpha_1,\alpha_2,\cdots,\alpha_m$ ，则 $\bm{x}$ 的第k主成分是
$y_k=\alpha_k^Tx=\alpha_{1k}x_1+\alpha_{2k}x_2+\cdots+\alpha_{mk}x_m,\quad k=1,2,\cdots,m$
$\bm{x}$ 的第k主成分的方差是 $\mathbf{var}(y_k)=\alpha_k^T\Sigma\alpha_k=\lambda_k,\quad k=1,2,\cdots,m$
(证明略)

推论 $\bm{y}=(y_1,y_2,\cdots,y_m)^T$ 的分量依次是 $\bm{x}$ 的第一主成分到第m主成分的充要条件是：
① $\bm{y}=A^T\bm{x}$ ，A是正交矩阵
$A=\left[\begin{matrix} \alpha_{11} & \alpha_{12} & \cdots &\alpha_{1m}\\ \alpha_{21} & \alpha_{22} & \cdots & \alpha_{2m}\\ \vdots&\vdots&&\vdots\\ \alpha_{m1} & \alpha_{m2} &\cdots&\alpha_{mm} \end{matrix} \right]$
② $\mathbf{cov(y)}=diag(\lambda_1,\lambda_2,\cdots,\lambda_m),\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_m$

$\Sigma\alpha_k=\lambda_k\alpha_k$
$\Sigma A=A\Lambda$
$\Sigma=A\Lambda A^T$ , $\Lambda=A^T\Sigma A$

总体主成分的性质
① $\mathbf{cov(y)}=diag(\lambda_1,\lambda_2,\cdots,\lambda_m)$
② $\sum\limits_{i=1}^m\lambda_i=\sum\limits_{i=1}^m\sigma_{ii}$ (利用trace的性质)
③factor loading
第k个主成分 $y_k$ 与变量 $x_i$ 的相关系数 $\rho(y_k,x_i)$ 称为因子负荷量， $\rho(y_k,x_i)=\frac{cov(y_k,x_i)}{\sqrt{var(y_k)var(x_i)}}=\frac{cov(\alpha_k^T\bm{x},e_i^T\bm{x})}{\sqrt{\lambda_k\sigma_{ii}}}=\frac{\alpha_k^T\Sigma e_i}{\sqrt{\lambda_k\sigma_{ii}}}=\frac{e_i^T\Sigma \alpha_k}{\sqrt{\lambda_k\sigma_{ii}}}=\frac{\sqrt{\lambda_k}e_i^T\alpha_k}{\sqrt{\sigma_{ii}}}=\frac{\sqrt{\lambda_k}\alpha_{ik}}{\sqrt{\sigma_{ii}}}$
④ $\sum\limits_{i=1}^m\sigma_{ii}\rho^2(y_k,x_i)=\sum\limits_{i=1}^m\lambda_k\alpha_{ik}^2=\lambda_k$
⑤ $\sum\limits_{k=1}^m\rho^2(y_k,x_i)=1$

1.4 主成分的个数

取 $\bm{x}$ 的前q个主成分时，能够最大限度地保留原有变量方差的信息；舍弃变量 $\bm{x}$ 的后p个主成分时，原有变量的方差的信息损失最少。

Definition(方差贡献率) $\eta_k=\frac{\lambda_k}{\sum\limits_{i=1}^m\lambda_i},\sum\limits_{i=1}^k\eta_i=\frac{\sum\limits_{i=1}^k\lambda_i}{\sum\limits_{i=1}^m\lambda_i}$

Definition k个主成分 $y_1,y_2,\cdots,y_k$ 对原有变量 $x_i$ 的贡献率定义为 $x_i$ 与 $(y_1,y_2,\cdots,y_k)$ 的相关系数的平方，记作 $v_i$
$v_i=\rho^2(x_i,(y_1,y_2,\cdots,y_k))=\sum\limits_{j=1}^k\rho^2(x_i,y_j)$

1.5 规范化变量的总体主成分

$x_i^*=\frac{x_i-E(x_i)}{\sqrt{var(x_i)}}$ ，协方差矩阵换为相关矩阵。性质类似，自己推。

2 样本主成分分析

2.1 样本主成分

样本矩阵 $\bm{X}=\left[ \begin{matrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{matrix} \right]$
$\bar x=\frac{1}{n}\sum\limits_{j=1}^nx_j$
$\bar x_i=\frac{1}{n}\sum\limits_{k=1}^nx_{ik},\bar x_j=\frac{1}{n}\sum\limits_{k=1}^nx_{jk}$
$S=[s_{ij}]_{m\times m}$
$s_{ij}=\frac{1}{n-1}\sum\limits_{k=1}^n(x_{ik}-\bar x_i)(x_{jk}-\bar x_j)$
$R=[r_{ij}]_{m\times m},\quad r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}$

样本主成分的定义类似，就是用S代替 $\Sigma$ 。

2.2 相关矩阵的特征值分解方法

①对观测数据进行规范化处理，得到规范化数据矩阵，仍以X表示
②计算 $R=[r_{ij}]_{m\times m}=\frac{1}{n-1}XX^T$
③ $|R-\lambda I|=0\Rightarrow \lambda_1\ge\lambda_2\ge\cdots\ge\lambda_m$
选择方差贡献率达到预定值的主成分个数k，对应的单位特征向量为 $a_i=(a_{1i},a_{2i},\cdots,a_{mi})^T,\quad i=1,2,\cdots,k$
④求k个样本主成分 $y_i=\alpha_i^Tx$
⑤计算k个主成分 $y_j$ 与原变量 $x_i$ 的相关系数 $\rho(x_i,y_j)$ ，以及k个主成分对原变量 $x_i$ 的贡献率 $v_i$
⑥计算n个样本的k个主成分值

2.3 数据矩阵的奇异值分解算法

输入： $m\times n$ 样本矩阵X，其每一行元素的均值为0
输出： $k\times n$ 样本主成分矩阵Y
参数：主成分个数k
① $X^\prime=\frac{1}{n-1}X^T,S_X=X^{\prime T}X^\prime$
②对矩阵 $X^\prime$ 进行截断奇异值分解，得到 $X^\prime=U\Sigma V^T$
③求 $k\times n$ 样本主成分矩阵， $Y=V^TX$

总结

知识点不难，而自用者实难！

LittleFish0820

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》学习笔记第十六章 PCA(principal component analysis)

目录1 总体主成分分析1.1 基本想法1.2 定义和导出1.3 主要性质1.4 主成分的个数1.5 规范化变量的总体主成分2 样本主成分分析2.1 样本主成分2.2 相关矩阵的特征值分解方法2.3 数据矩阵的奇异值分解算法总结1 总体主成分分析1.1 基本想法（以前学过，很好理解，不放了）1.2 定义和导出x=(x1,x2,⋯ ,xm)T\bm{x}=(x_1,x_2,\cdots,x_m)^Tx=(x1,x2,⋯,xm)Tμ=E(x)=(μ1,μ2,⋯ ,μm)\bm\mu=E(\bm
复制链接

扫一扫