python 数据挖掘（7）-- 主从分析 PCA

最新推荐文章于 2024-01-21 03:42:08 发布

ouprince

最新推荐文章于 2024-01-21 03:42:08 发布

阅读量760

点赞数

分类专栏：探索数据挖掘与分析文章标签： PCA 主从分析

探索数据挖掘与分析专栏收录该内容

18 篇文章 8 订阅

订阅专栏

主从分析的主要目的是降维，从而提高数据挖掘的效率，降低计算成本。

主从分析计算步骤如下：

（1）设置原始属性 X1，X2，...Xp 的 n 次观测矩阵为：

（2）将数据矩阵按列进行中心标准化。

（3）求标准化后的相关系数矩阵 R，我们知道这是一个实对称矩阵

（4）求R 的特征根

（5）确定主成分个数 m ，一般取 0.8

（6）计算 m 个相应的特征向量

（7）计算主成分

python 主从成分分析函数 sklearn.decomposition.PAC(n_components = None,copy = True,whiten = False)

n_components:默认为 None，所有成分被保留。赋值为 int ，确定主成分个数；复制为 string ,比如 'mle'，则自动选取特征个数。即参考上述第（5）个步骤

copy:默认为 True，表示在运行算法时，将原始训练数据复制一份，若为 True，则运行 PCA 算法后，原始数据的值不会有任何改变，因为是在原始数据的副本上训练。若为 False，则原始数据会改变成降维后的运算结果。

whiten: 默认为 False，意义：白化，使得每个特征具有相同的方差。

使用 PCA 降维的代码如下： principal_component.xls

#-*- coding:utf-8 -*-
import pandas as pd

# 数据文件
inputfile = 'wajue/principal_component.xls'
# 降维后保存的数据
outputfile = 'wajue/dimention_reducted.xls'

data = pd.read_excel(inputfile,header = None) # 没有标头

# 导入 PCA
from sklearn.decomposition import PCA
# 参数默认
#pca = PCA(n_components = 'mle')
pca = PCA(n_components = 3)
pca.fit(data)

# 返回模型的各个特征向量
print pca.components_

# 返回各个成分各自的方差百分比
print pca.explained_variance_ratio_

# 用它来降低维度
low_d = pca.transform(data)
# 保存数据
pd.DataFrame(low_d).to_excel(outputfile)
# 必要时也可以恢复数据
pca.inverse_transform(low_d)

以上代码将 8 维降到了 3 维，降维公式由步骤（7）给定