主成分分析法

该昵称已经被占用

于 2015-10-01 21:32:33 发布

阅读量1.7w

点赞数 10

本文链接：https://blog.csdn.net/u011414200/article/details/47373357

版权

主成分分析（PCA）是一种统计降维方法，通过线性变换将原始数据转换为一组各维度线性无关的表示，用于简化数据并保留最大方差。PCA的主要目的是减少变量数量，同时保持数据的主要特征。确定主成分个数通常依据累计贡献率，一般选择解释变异的70%~80%的主成分。主成分回归分析通过主成分来替代原有变量，降低多重共线性的影响，提高模型稳定性。

摘要由CSDN通过智能技术生成

背景介绍

　　在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术，也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面，
　　主成分回归分析是为了克服最小二乘法(LS)估计在数据矩阵 A 存在多重共线时表现出的不稳定性而提出来的。

主要目的

　　希望用较少的变量去解释原来资料中的大部分变量，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中变量的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法

　 ##基本思想及方法　　如果用

x1,x2,...,xp $x_{1},x_{2},...,x_{p}$ 表示p门课程，

c1,c2,...,cp $c_{1},c_{2},...,c_{p}$ 表示各门课程的权重，那么加权之和是

s=c1x1+c2x2+...+cpxp $s=c_{1}x_{1}+c_{2}x_{2}+...+c_{p}x_{p}$ 　　我们希望选择适当的权重能更好地区分学生的成绩，每个学生都对应一个这样的综合成绩，记为

s1,s2,...,sn,n $s_{1},s_{2},...,s_{n},n$ 为学生人数。如果这些值很分散，就表明区得好，即使说，需要寻找这样的加权，能使

s1,s2,...,sn $s_{1},s_{2},...,s_{n}$ 尽可能地分散，下面看它的统计定义　　设

X1,X2,...,Xp $X_{1},X_{2},...,X_{p}$ 表示以

x1,x2,...,xp $x_{1},x_{2},...,x_{p}$ 为样本观测值的随机变量，如果能找到

c1,c2,...,cp $c_{1},c_{2},...,c_{p}$ ，使得

Var(c1X1+c2X2+...+cpXp) $Var(c_{1}X_{1}+c_{2}X_{2}+...+c_{p}X_{p})$ 的值达到最大。则由于方差反映了数据差异的程度，也就表明我们抓住了这p个变量的最大变量。　　当然上式必须加上某种限制，否则权值可选择无穷大而没有意义，通常规定：

c21+c22+...+c2p=1 $c_{1}^{2}+c_{2}^{2}+...+c_{p}^{2}=1$ 。在此约束下，再求上式的最优解。这个解是p-维空间的一个单位向量，它代表一个“方向”，就是常说的主成分方向　　一个主成分不足以代表原来p个变量，因此需要寻找第二个乃至第三个、第四个主成分，第二个主成分不应该再包含第一个主成分的信息，统计上的描述就是让这两个主成分的协方差为0，几何上就是这两个主成分的方向正交。具体确定各个主成分的方法如下　　设

Zi $Z_{i}$ 表示第i个主成分，i=1,2，…p，可设　　　　　　

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪Z1Z2Zp===c11X1c21X1cp1X1+++c12X2c22X2cp2X2++...+.........+++c1pXpc2pXpcppXp $\left\{\begin{matrix}Z_{1} &= &c_{11}X_{1} &+ &c_{12}X_{2} &+ &... &+ &c_{1p}X_{p} & \\ Z_{2} &= &c_{21}X_{1} &+ &c_{22}X_{2} &+ &... &+ &c_{2p}X_{p} & \\ & & & & &... & & & & \\ Z_{p} &= &c_{p1}X_{1} &+ &c_{p2}X_{2} &+ &... &+ &c_{pp}X_{p} & \end{matrix}\right.$ 　　(1) 　　其中：对每一个 i，均有

c2i1+c2i2+...+c2ip=1 $c_{i1}^{2}+c_{i2}^{2}+...+c_{ip}^{2}=1$ ，且

[c11,c12,...,c1p] $[c_{11},c_{12},...,c_{1p}]$ 使得

Var(Z1) $Var(Z_{1})$ 的值达到最大；

[

最低0.47元/天解锁文章

该昵称已经被占用

关注

10
点赞
踩
34

收藏

觉得还不错? 一键收藏
2
评论
主成分分析法

背景介绍　　在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术，也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同
复制链接

扫一扫

专栏目录