一文理清学会降维PCA（主成分分析）

最新推荐文章于 2022-07-02 13:05:25 发布

指尖在键盘上舞动

最新推荐文章于 2022-07-02 13:05:25 发布

阅读量887

点赞数

文章标签：算法 pca降维机器学习人工智能

本文链接：https://blog.csdn.net/qq_43215538/article/details/122450829

版权

准备知识：

降维：

PCA（主成分分析）：
PCA思想：一个中心，两个基本点。
一个中心：原始特征空间的重构（即把线性相关的特征重构为线性无关的特征）；
两个基本点：最大投影方差、最小重构距离，这两个点其实说的是一个事情（最大投影方差：找到一个投影的方向，使得样本在这个方向上的投影方差最大，即投影点应很分散；最小重构距离：样本投影之后，能根据投影将样本重构回去，而重构的代价应尽量小，投影越分散代价越小）。
PCA第一步要对样本中心化（为了方便计算）。假设投影方向为u1，||u1||=1,数学上看向量a在向量b上的投影可表示为|a|·|b|·cosθ=|a|·cosθ（b的模为1），又a·b=a|·|b|·cosθ=|a|·cosθ=aT·b，一个点的投影可以表示为(xi-x均值)T·u1，整体方差=全部样本投影平方的加和（其中中心化后整体样本均值为0，即用投影式的平方加和表示方差）。
最终J=u1T·S·u1,求u1即最大化J，限制条件是u1T·u1=1，利用拉格朗日乘数法求解，构造L(u1,λ)=u1T·S·u1+λ(1-u1T·u1)，然后求偏导=2S·u1-λ·2u1=0，则S·u1=λ·u1（可以看出λ为S的特征值，u1为S的特征向量）

进一步解释：实际上PCA分为两步：先对特征空间进行重构，再选择前q个成分保留下来，即是降维过程。例如：假设原始空间是p维，通过重构得到u1，u2…up（它们之间线性无关），每一个对应一个特征值λ1，λ2…λp，然后可以去前q个λ1，λ2…λq，这个就是降维了。
先重构再筛选。

具体来说PCA：对协方差矩阵S进行奇异值分解（S是对称矩阵对其特征值分解与奇异值分解相同），S=GKGT，其中K是一个对角矩阵，对角线上是特征值，进行降维时，取前p个特征值对应的特征向量就是主成分。

PCA中的两个基本点：①最大投影方差（最大化方差问题）：从投影后的方差作为选择成分的基本点，通过公式推到求解使方差最大的成分，得出成分就是S对应的特征向量，特征值λ越大表示成分包含的信息越多，即方差大。②最小重构距离（最小化代价问题）：假设将p维空间降到q维，则重构前的样本与重构后的样本之间的距离可作为最小化函数（两者相减余下的是p-q维成分相加和），而这个过程计算的结果是使余下的p-q维的成分对应的特征值最小，这也对应了最大投影方差选择最大特征值，这里是丢掉最小的p-q个特征值对应的成分。
以上是从两个角度去看PCA，最终重构筛选成分，都要落在对S的奇异值分解上。

扩展：
①对样本中心化可以表示为HX，然后对其进行奇异值分解HX=U∑VT，其中UTU=I，VTV=I，∑对角。S=XTHX=XTHT·HX=V∑UT·U∑VT=V∑^{2VT（其中S是p*p，这里省去了1/N，HT=H，HTH=H），可以看出G=V，K=∑}2，则得出结论：通过对HX进行奇异值分解，也可以得到主成分。
②（T是N*N，对上式S进行翻转）T=HX·XTH=U∑VT·V∑UT=U∑^2UT，可以看出T和S有相同的特征值。
③对S特征值分解，得到主成分，然后HX·V就是样本对应的坐标；对T特征值分解，直接得到坐标，U∑就是坐标矩阵。
④T的过程称作主坐标分析（PCoA）。
⑤S的维度和特征数量有关，T的维度和样本数量有关，当特征维度很大时，我们可以用T来做。
如下图所示（来自b站白板推导机器学习）：

指尖在键盘上舞动

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫