主成成分分析pca

前言

主成成分分析(PCA)是一种比较基础的数据降维方法,也是多元统计中的重要部分,在数据分析、机器学习等方面具有广泛应用。主成分分析目的是用较少的变量来代替原来较多的变量,并可以反映原来多个变量的大部分信息。

一、特征维度约减

1.维度约减的概念

给出数据集:{ x^{(1)},x^{(2)}...,x^{(m)} },x^{i} \in R^{n}.使得数据集转换成:{z^{(1)},z^{(2)}...z^{(m)}}, z^{(i)}\in R^{k}k <= n. 尽量使得k=2/3,这样便于将数据可视化。

2.维度约减的作用

 应用于数据压缩,数据压缩不仅通过压缩数据使得数据占有更少的计算机内存和硬盘空间,还能给算法提速。

1.可视化:高位数据在 2D 或 3D空间中的可视化

2.维度约减:高效的存储与检索

3.噪声消除:提升分类或识别精度

3.维度约减的方法

1.无监督方法

2.监督方法

3.半监督方法

二、PCA

1.PCA目标

PCA的目标就是实现维数约减,即在尽可能保留信息的同时减少数据的维度。通过维数约减,我们可以实现数据压缩节省存储空间,还能加快一些算法的运算速度。

2.PCA基本思路

a)通过协方差分析,建立高维空间到低维空间的线性映射/矩阵

b)保留尽可能多的样本信息

c)压缩后的数据对分类、聚类尽量不产生影响,甚至有所提升

3.算法流程

假设有n个样本,p个指标,则可以构成大小为n×p的样本矩阵x:

a)首先对其进行标准化处理

按列计算均值\overline{x_{j}}=\frac{1}{n} \sum_{i=1}^{n} x_{i j}和标准差S_{j}=\sqrt{\frac{\sum_{i=1}^{n}\left(x_{i j}-\overline{x_{j}}\right)^{2}}{n-1}},计算得标准化数据X_{i j}=\frac{x_{i j}-\overline{x_{j}}}{S_{j}},原始样本矩阵经过标准化变为:

b) 计算标准化样本得协方差矩阵

其中r_{i j}=\frac{1}{n-1} \sum_{k=1}^{n}\left(X_{k i}-\overline{X_{i}}\right)\left(X_{k j}-\overline{X_{j}}\right)=\frac{1}{n-1} \sum_{k=1}^{n} X_{k i} X_{k j}

上面两步等同于算皮尔曼相关系数矩阵)

c)计算R的特征值和特征向量

特征值:\lambda _1\geq \lambda _2\geq \cdots \geq\lambda _p\geq0       (R是半正定矩阵,且t r(R)=\sum_{k=1}^{p} \lambda_{k}=p

特征向量:a_{1}=\left[\begin{array}{c} a_{11} \\ a_{21} \\ \vdots \\ a_{p 1} \end{array}\right], a_{2}=\left[\begin{array}{c} a_{12} \\ a_{22} \\ \vdots \\ a_{p 2} \end{array}\right], \cdots, a_{p}=\left[\begin{array}{c} a_{1 p} \\ a_{2 p} \\ \vdots \\ a_{p p} \end{array}\right]

d)计算主成分贡献率以及累计贡献率

贡献率:\frac{\lambda_{i}}{\sum_{k=1}^{p} \lambda_{k}}(i=1,2, \cdots, p)

累计贡献率:\frac{\sum_{k=1}^{i} \lambda_{\mathrm{k}}}{\sum_{k=1}^{p} \lambda_{k}}(i=1,2, \cdots, p)

e)写出主成分

一般取累计贡献率超过80%的特征值所对应的第一、第二、\cdots ,第m(m\leqslant p)个主成分。第 i 个主成分:F_{i}=a_{1 i} X_{1}+a_{2 i} X_{2}+\cdots+a_{p i} X_{p} \quad(i=1,2, \cdots, m)

f)根据系数分析主成分代表的意义

对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大。

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值