因此,PCA的过程如下:
(1)白化:求样本的均值向量,所有向量减去均值向量
(2)计算数据集的协方差矩阵
(3)求解特征值和特征向量
(4)按特征值大小排序,选取前k名的特征向量(k为降成的维度),以这些向量为行,构造投影矩阵
(5)新数据 = 投影矩阵*原数据
用PCA处理Iris数据集,4维降为2维
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#读取数据并取数字部分
data = pd.read_csv('iris.csv')
data = np.mat(data.iloc[:,1:5])
#白化(即减去平均)
meanVal = np.mean(data,axis=0)
data = data - meanVal
#求协方差矩阵
covMat = np.cov(data,rowvar=False)
#求协方差矩阵的特征值特征向量
eigVal,eigVector = np.linalg.eig(covMat)
# print(eigVal)
# print(eigVector)
#从4维降到2维
refMat = eigVector[0:2]
data = np.matmul(data,refMat.T)
print(type(data))
data = data.getA()
x = list(data[:,1])
y = list(data[:,0])
print(x)
print(y)
fig = plt.figure()
ax1 = fig.add_subplot()
plt.xlabel('PCA1')
plt.ylabel('PCA2')
ax1.scatter(x,y)
plt.show()
处理结果