主成分分析(PCA)原理与特征选取
前言
在许多领域中存在着大量数据特征,我们通常需要在海量的数据中提取出有价值的信息,例如如何在众多的数据特征中筛选或者是提取出高度有效的特征指标,而PCA就是一种能够解决此类问题的有效方法。
一、什么是PCA?
PCA(Principal Component Analysis),即主成分分析方法,主成分顾名思义就是代表一个数据中或者是事件中最重要、最主要的成分。主成分分析是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上(k<=n),这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
二、PCA作用
主成分分析能将高维的数据映射到低维的空间中,同时保留数据集中最重要的特征,其中主要作用包括:
- 数据降维:PCA能够将高维数据转换为低维空间表示,能够很好的节约计算成本,同时更加有利于进行数据可视化与理解数据等。
- 特征提取:PCA可以识别数据中最重要的特征,通过累计方差贡献率,找到特征之间得分最高、对数据影响最大的特征。
- 压缩数据:PCA可以对数据进行压缩,减少存储空间与传输成本,在压缩的同时,尽可能保留了数据最主要的信息。
- 去噪:PCA可以帮助消除数据中的噪声,改善数据的质量和可靠性。
三、PCA原理
主成分分析法是运用“降维”思想,把多个指标变换成少数综合指标的多元统计方法,这里的综合指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。根据标准化后的数据集计算协方差矩阵R:
注意需要先对数据进行标准化
计算矩阵 R 的特征值 λ 1 ≥λ 2 ≥…≥λ n ≥ 0及 对应的特征向量 u1 ,u2 ,…,un ,其中 uj= (u1 j,u2 j, …,u nj) ,u nj 表示第 j 个特征向量的第 n 个分量; 由特征向量组成 n 个新的指标变量:
式中,y 1 是第 1 主成分,y 2 是第 2 主成分,…,y n 是第 n 主成分。 计算各主成分y j 贡献率 b j(j=1,2,…,n) 及 y 1,y 2 ,…,y n (p ≤ n)的累计贡献率 αp。
四、案例分析
1.引入库
#导入所需要