前言
主成成分分析(PCA)是一种比较基础的数据降维方法,也是多元统计中的重要部分,在数据分析、机器学习等方面具有广泛应用。主成分分析目的是用较少的变量来代替原来较多的变量,并可以反映原来多个变量的大部分信息。
一、特征维度约减
1.维度约减的概念
给出数据集:{ },.使得数据集转换成:{}, k <= n. 尽量使得k=2/3,这样便于将数据可视化。
2.维度约减的作用
应用于数据压缩,数据压缩不仅通过压缩数据使得数据占有更少的计算机内存和硬盘空间,还能给算法提速。
1.可视化:高位数据在 2D 或 3D空间中的可视化
2.维度约减:高效的存储与检索
3.噪声消除:提升分类或识别精度
3.维度约减的方法
1.无监督方法
2.监督方法
3.半监督方法
二、PCA
1.PCA目标
PCA的目标就是实现维数约减,即在尽可能保留信息的同时减少数据的维度。通过维数约减,我们可以实现数据压缩节省存储空间,还能加快一些算法的运算速度。
2.PCA基本思路
a)通过协方差分析,建立高维空间到低维空间的线性映射/矩阵
b)保留尽可能多的样本信息
c)压缩后的数据对分类、聚类尽量不产生影响,甚至有所提升
3.算法流程
假设有n个样本,p个指标,则可以构成大小为n×p的样本矩阵x:
a)首先对其进行标准化处理
按列计算均值和标准差,计算得标准化数据,原始样本矩阵经过标准化变为:
b) 计算标准化样本得协方差矩阵
其中
(上面两步等同于算皮尔曼相关系数矩阵)
c)计算R的特征值和特征向量
特征值: (R是半正定矩阵,且)
特征向量:
d)计算主成分贡献率以及累计贡献率
贡献率:
累计贡献率:
e)写出主成分
一般取累计贡献率超过80%的特征值所对应的第一、第二、 ,第个主成分。第 i 个主成分:
f)根据系数分析主成分代表的意义
对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大。