为什么机器学习(五) —— 数据降维PCA原理

在这里插入图片描述
因此,PCA的过程如下:
(1)白化:求样本的均值向量,所有向量减去均值向量
(2)计算数据集的协方差矩阵
(3)求解特征值和特征向量
(4)按特征值大小排序,选取前k名的特征向量(k为降成的维度),以这些向量为行,构造投影矩阵
(5)新数据 = 投影矩阵*原数据

用PCA处理Iris数据集,4维降为2维

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#读取数据并取数字部分
data = pd.read_csv('iris.csv')
data = np.mat(data.iloc[:,1:5])

#白化(即减去平均)
meanVal = np.mean(data,axis=0)
data = data - meanVal

#求协方差矩阵
covMat = np.cov(data,rowvar=False)

#求协方差矩阵的特征值特征向量
eigVal,eigVector = np.linalg.eig(covMat)
# print(eigVal)
# print(eigVector)
#从4维降到2维
refMat = eigVector[0:2]
data = np.matmul(data,refMat.T)
print(type(data))
data = data.getA()

x = list(data[:,1])
y = list(data[:,0])
print(x)
print(y)
fig = plt.figure()
ax1 = fig.add_subplot()
plt.xlabel('PCA1')
plt.ylabel('PCA2')
ax1.scatter(x,y)
plt.show()

处理结果
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值