主成分分析(Principle Component Analysis，PCA)

最新推荐文章于 2021-11-07 23:10:59 发布

Ldaze

最新推荐文章于 2021-11-07 23:10:59 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43812171/article/details/113638290

版权

机器学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

PCA理论部分

PCA简介

顾名思义，主成分分析是分析一组数据中的主要成分。它是一种很好用的特征提取算法，用于降维。

PCA降维后的数据的各个维度之间是相互正交的，即提取出的特征之间是相互独立的，也就是这组数据的主要特征，而原始数据中可能某两个甚至多个字段之间存在着相关性，因此这个算法被称为主成分分析。

在很多情况下，无法人为去分辨一组数据中是否有冗余字段，因为这些字段之间可能存在着某种隐含的、人难以分辨的内在联系，或者得到的特征是一组计算出的向量，没有属性标签，在这种情况下，就需要对信息进行PCA降维。

PCA的作用

从名字上看，主成分分析，分析数据的主要成分，最直观的感受是可以提取出数据的主要的特征、防止过拟合、降低维度进而减少计算量等。

此外，由于PCA降维后的数据是原始数据在低维坐标系中的投影，并且要求投影后，各个坐标轴上的数据方差最大，这样在寻找投影方向时，起主要作用的是那些正常的数据，而噪点对整体的影响不大，因此PCA在一定程度上可以起到降噪的作用。

PCA的原理

前文已经点出，PCA降维后的数据是原始数据在低维坐标系中的投影，并且要求投影后，各个坐标轴上的数据方差最大且各个坐标轴之间相互正交。

使各个坐标轴上的数据方差最大是为了能够让降维后的数据尽可能保留更多的信息。举例来说，将二维空间中的点降到一维，如果降维后的两个点特别近，甚至重合了，那就丢失了一个点的信息，因此需要让降维后的点尽可能的离散。

使各个坐标轴之间相互正交是为了能够让降维后的数据在各个维度上没有相关性，这样就消除了冗余的信息，使保留下来的特征是最主要的。

PCA的优化目标

为了方便描述，设 $X=\{X_1,X_2,\cdots,X_N\}_{N=1\sim n}$ 为原始数据，其中 $X_i$ 为 $m$ 维的列向量，表示一条数据， $X$ 的均值为 $\bar{X}$ ， $X$ 的协方差矩阵为 $C o v (X)$ ；使原始数据降到 $k$ 维的映射为 $A$ ，显然 $A$ 的形状为 $k * m$ ， $A$ 的每一行 $A_i$ 都是单位向量，是新坐标系中各个坐标轴上的基；映影后的数据为 $Y$ ，显然 $Y$ 的形状为 $k * n$ ， $Y$ 的均值为 $\bar{Y}$ 。

任务目标为使 $Y$ 的方差最大，且 $Y$ 的每一行之间线性无关。显然就是令 $Y$ 的协方差矩阵的对角元素最大，其他元素都为0。

设 $Y$ 的协方差矩阵为 $C o v (Y)$ ，则有：
$\begin{aligned} Cov(Y)&=\frac{1}{n}(Y-\bar{Y})(Y-\bar{Y})^T\\ &=\frac{1}{n}(AX-A\bar{X})(AX-A\bar{X})^T\\ &=\frac{1}{n}A(X-\bar{X})(X-\bar{X})^TA^T\\ &=A\frac{1}{n}(X-\bar{X})(X-\bar{X})^TA^T\\ &=ACov(X)A^T\\ \end{aligned}$

至此，得到PCA的优化目标为：
$\begin{aligned} \max_{A}\quad&ACov(X)A^T\\ s.t.\quad&对\forall i,j=1\sim k且i≠j有\\ &||A_i||^2=1\\ &A_iA_j^T=0 \end{aligned}$

求解PCA的优化问题

将目标函数拆开，并用拉格朗日乘子法合并约束条件

当 $i = 1$ 时：
$L(A_1)=A_1Cov(X)A_1^T-\alpha_1(A_1A_1^T-1)$

对 $A_1$ 求偏导有：
$\frac{\partial L}{\partial A_1}=(Cov(X)A_1^T-\alpha_1 A_1^T)^T=0$

即
$Cov(X)A_1^T=\alpha_1 A_1^T$

当 $i = 2$ 时：
$L(A_2)=A_2Cov(X)A_2^T-\alpha_1(A_2A_2^T-1)-\beta_2A_1^T$

对 $A_2$ 求偏导有：
$\frac{\partial L}{\partial A_2}=(Cov(X)A_2^T-\alpha_2 A_2^T-\beta_2A_1^T)^T=0$

在 $(Cov(X)A_2^T-\alpha_2A_2^T-\beta_2A_1^T)^T=0$ 两侧同时乘 $A_1^T$ 得：
$(Cov(X)A_2^T-\alpha_2A_2^T-\beta_2A_1^T)^TA_1^T=0$

即
$A_2Cov(X)A_1^T-\alpha_2A_2A_1^T-\beta_2A_1A_1^T=0$

又因为
$\begin{aligned} A_2Cov(X)A_1^T=\alpha_1A_2A_1^T=0\\ \alpha_2A_2A_1^T=0\\ A_1A_1^T=1 \end{aligned}$

所以有 $\beta_2=0$ ，即 $Cov(X)A_2^T=\alpha_2 A_2^T$ ；

当 $i = 3$ 时：
$L(A_3)=A_3Cov(X)A_3^T-\alpha_1(A_3A_3^T-1)-\beta_{31}A_1^T-\beta_{32}A_2^T$

对 $A_3$ 求偏导有：
$\frac{\partial L}{\partial A_3}=(Cov(X)A_3^T-\alpha_3 A_3^T-\beta_{31}A_1^T-\beta_{32}A_2^T)^T=0$

在 $(Cov(X)A_3^T-\alpha_3 A_3^T-\beta_{31}A_1^T-\beta_{32}A_2^T)^T=0$ 两侧同时乘 $A_1^T$ 得：
$A_3Cov(X)A_1^T-\alpha_3A_3A_1^T-\beta_{31}A_1A_1^T-\beta_{32}A_2A_1^T=0$

又因为
$\begin{aligned} A_3Cov(X)A_1^T=\alpha_1A_3A_1^T=0\\ \alpha_3A_3A_1^T=0\\ A_1A_1^T=1\\ A_2A_1^T=0 \end{aligned}$

所以有 $\beta_{31}=0$ ；

在 $(Cov(X)A_3^T-\alpha_3 A_3^T-\beta_{31}A_1^T-\beta_{32}A_2^T)^T=0$ 两侧同时乘 $A_2^T$ ，可证 $\beta_{32}=0$ ；

即 $Cov(X)A_3^T=\alpha_3 A_3^T$ ；

同理可证对 $\forall i=1\sim k$ 都有
$Cov(X)A_i^T=\alpha_i A_i^T$

显然 $A_i^T$ 是 $C o v (X)$ 的特征向量， $\alpha_i$ 是 $A_i^T$ 对应的特征值；

对上式变形得：
$A_iCov(X)A_i^T=\alpha_i$

由此可见，将所有特征值由大到小排序，将其对应的特征向量归一化后拼到一起组成的A就是能使目标函数 $ACov(X)A^T$ 最大的 $A$ 。

总结PCA算法流程

1.求 $Cov(X)=\frac{1}{n}(X-\bar{X})(X-\bar{X})^T$ ；

2.求 $C o v (X)$ 的特征值并从大到小排序，将对应的特征向量 $A_i^T$ 按相同的顺序排序；

3.将前k个特征向量转置得到 $A_i$ 并对其归一化使得 $A_iA_i^T=1$ ，最后将其纵向拼接组成矩阵A；

4. $Y=A(X-\bar{X})$ 。

Ldaze

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
主成分分析(Principle Component Analysis，PCA)

PCA理论部分PCA简介顾名思义，主成分分析是分析一组数据中的主要成分。它是一种很好用的特征提取算法，用于降维。PCA降维后的数据的各个维度之间是相互正交的，即提取出的特征之间是相互独立的，也就是这组数据的主要特征，而原始数据中可能某两个甚至多个字段之间存在着相关性，因此这个算法被称为主成分分析。在很多情况下，无法人为去分辨一组数据中是否有冗余字段，因为这些字段之间可能存在着某种隐含的、人难以分辨的内在联系，或者得到的特征是一组计算出的向量，没有属性标签，在这种情况下，就需要对信息进行PCA降维。
复制链接

扫一扫