原数据:
#-*- coding: utf-8 -*-
import pandas as pd
from sklearn.decomposition import PCA #PCA主成分分析函数
inputfile = '../data/principal_component.xls'
outoutfile = './dimention_reducted.xls' #降维后的数据
data = pd.read_excel(inputfile)
pca = PCA()
pca.fit(data)
pca.components_ #返回模型的各个特征向量
pca.explained_variance_ratio_ #返回各个成分各自的方差百分比; variance:方差; ratio:百分比
输出:pca.explained_variance_ratio_
[8.19870356e-01 1.24403427e-01 4.35654729e-02 1.01185073e-02
1.44614964e-03 3.46741246e-04 1.51101937e-04 9.82436662e-05]
从上面的结果可以得到特征方程det有8个特征根,对应8个特征向量以及各个成分的方差百分比(也称贡献率),其中方差百分比越大,说明向量的权重越大。当选取前3个主成分时,累计的贡献率已达到98.78%(81.98%+12.44%+4.36%),说明选取前3