主成分分析法PCA

最新推荐文章于 2022-06-10 16:33:32 发布

JeJe_33

最新推荐文章于 2022-06-10 16:33:32 发布

阅读量418

点赞数 1

分类专栏： ML

本文链接：https://blog.csdn.net/qq_44807945/article/details/116574607

版权

ML 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1.简介

主成分分析（principal component analysis,PCA）是一种常见的无监督学习方法，其通过正交变化将线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量称为主成分。主成分的个数通常小于原始变量个数，因此可以通过主成分分析进行降维。PCA常用于发现数据的基本结构及用于其他机器学习方法的预处理。
主成分分析先将给定数据规范化，使得每一变量均值为0，方差为1，然后通过正交变换变成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差的和（信息保存）最大的，方差表示在新变量上信息的大小。将新变量依次称为第一主成分、第二主成分等。

2.定义

给定一个x->y的线性变换：
$x=(x_1,x_2,...,x_m)^T$ 是m维随机变量，其均值向量为 $\mu$
$\mu=E(x)=(\mu_1,\mu_2,...\mu_m)^T$
协方差矩阵为 $\sum=cov(x,x)=E[(x-\mu)(x-\mu)^T]$
当进行线性变换时： $y_i=α_i^Tx$
由随机变量的性质可知：

$E(y_i)=α_i^T\mu_i$
$var(y_i)=α_i^T\sumα_i$
$cov(y_i,y_j)=α_i^T\sumα_j$

总体主成分定义为：

系数向量是单位向量 $α_i^Tα_i=1$
变量y之间互不相关
变量 $y_i$ 随着i增大，依次为与之前不相关的x线性变换中方差最大的。

3.主要性质及求解

3.1 x的第k主成分是

$y_k=α_k^Tx$ $var(y_k)=\lambda_k$
$\sum_{i=1}^{m}\lambda_i=\sum_{i=1}^{m}\sigma_{ij}$ ； σ即x协方差矩阵
第k个主成分 $y_k$ 与变量 $x_i$ 的相关系数称为因子 $\lambda_k$ 是 $\rho(y_k,x_i)=\frac{(\lambda_k)^\frac{1}{2}α_{ik}}{(\sigma_{ii})^\frac{1}{2}}$
第k个主成分 $y_k$ 与m个变量的因子负荷量满足 $\sum_{i=1}^{m}\sigma_{ii}\rho^2(y_k,x_i)=\lambda_k$
第m个主成分与第i个变量x_i的因子负荷量满足 $\sum_{i=1}^{m}\rho^2(y_k,x_i)=1$
x协方差矩阵的第k个特征值， $α_k$ 是对应的单位向量

3.2 x与y的充要条件
m维随机变量 $y=(y_1,y_2,...,y_m)^T$ 的分量依次是x的第一主成分到第m主成分的充要条件是：

$y=A^Tx$ ,A为正交矩阵
y的协方差矩阵为对角矩阵 $cov(y)=diag(\lambda_1,\lambda_2,...\lambda_m)$
tips:不想关非对角线为0，对角线 $var(y_k)=\lambda_k$

3.3 主成分个数
主成分分析通常用于降维，一般选择k个主成分代替m个原有变量，使得问题简化（k<<m）

对任意正整数 $q\le{m}$ ，考虑正交线性变换 $y=B^Tx$ , $B^T$ 为q x m矩阵，使得y的协方差矩阵为 $\sum_y=B^T\sum{B}$ ，则y的协方差矩阵的迹 $tr(\sum_y)$ 在 $B=A_q$ 时取得最大值， $A_q$ 由正交矩阵A的前q列组成（迹即特征值和，即主对角线元素和）；即当取A的前q列取x的前q个主成分时，能最大限度保留原有方差信息
A后p列保存信息最少，此时迹最小
第k主成分 $y_k$ 的方差贡献率定义为 $y_k$ 的方差与所有方差之和的比 $\eta_k=\frac{\lambda_k}{\sum{\lambda_i}}$
定义k个主成分对原有变量 $x_i$ 的贡献率帝国以为 $x_i$ 与 $y_1,y_2,...,y_n)$ 的相关系数的平方 $\rho(y_k,X)^2=\sum_{j}\frac{(\lambda_k)α_{ij}^2}{(\sigma_{ii})}$