主成分分析就是一种通过降维技术把多个原始变量重新组合成少数几个互不相关的主成分(综合变量)的统计方法。这些主成分能够反映原始变量的绝大部分信息,通常表示为原始变量的某种线性组合。
一、总体主成分
1.1、从协方差矩阵出发进行主成分分析
例子:设x=(x1,x2,x3)T为40个随机生成的三维数据,其中x1~N(0,4),x2~N(2,1),x3~N(1,10)。试对该数据做主成分分析,求出x的特征值、特征向量及主成分的贡献率。
用Python计算出协方差矩阵
import numpy as np``#读取数据``random = np.loadtxt("D:/data/random.csv",delimiter = ",").T``# 计算协方差矩阵Covariance Matrix``cov_mat = np.cov(random)``print('协方差矩阵:\n', cov_mat)
结果输出:
协方差矩阵:` `[[ 2.31472802 -0.01659731 -0.1117694 ]` `[-0.01659731 0.99550289 0.10692141]` `[-0.1117694 0.10692141 7.63116319]]
用Python计算本例特征值及特征向量
# 计算特征值和特征向量``eig_val_cov, eig_vec_cov = np.linalg.eig(cov_mat)``print('特征值:', eig_val_cov)``print('特征向量:\n', eig_vec_cov)
结果输出:
特征值:[7.6352442 2.31253533 0.99361458]``特征向量:` `[[ 0.02105023 -0.99971552 -0.01121415]` `[-0.0161502 0.01087515 -0.99981043]` `[-0.99964797 -0.02122735 0.01591668]]
从结果可得出,相应的主成分为:
y1=0.021*x1−0.016*x2−0.1000*x3
y2=−1.000*x1+0.011*x2−0.021*x