python高维数据可视化_【机器学习】（十六）主成分分析PCA：高维数据可视化、特征提取...

最新推荐文章于 2024-07-01 18:45:17 发布

weixin_39635373

最新推荐文章于 2024-07-01 18:45:17 发布

阅读量1.5k

点赞数 2

文章标签： python高维数据可视化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39635373/article/details/113994910

版权

主成分分析(PCA)是一种旋转数据集的方法，旋转后的特征在统计上不相关。

用PCA做数据变换

首先，算法在原始数据点集中，找到方差最大的方向(包含最多信息)，标记为‘成分1’。->找到与“成分1”正交(成直角)且包含最多信息的方向，标记为“成分2”。利用这一过程找到的方向被称为主成分(重建的最佳方向)，一般主成分个数和原始特征数相同。

从数据中减去平均值，是的变换后的数据以0为中心->旋转数据：使第一主成分与x轴平行，第二主成分与y轴平行。两坐标轴是不相关的，除了对角线，相关矩阵全为0。

仅保留一部分主成分(第一主成分)进行PCA降维。二维数据集->一维数据集。(这个方向不是原始特征之一)

反向旋转并将平均值重新加到数据中。

这种变换可以用于去除数据中的噪声影响，或者将主成分中保留的那部分信息可视化。

将PCA应用于高维数据可视化(cancer数据集)

from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler

from sklearn.datasets import load_breast_cancer

import matplotlib.pyplot as plt

# 预处理：缩放数据是每个特征方差均为1

cancer = load_breast_cancer()

scaler = StandardScaler()

scaler.fit(cancer.data)

x_scaled = scaler.transform(cancer.data)

# 保留数据的前两个主成分,对数据集拟合PCA模型

pca = PCA(n_components=2) # 实例化对象并指定想要保留的主成分个数，默认情况下所有主成分都保留

pca.fit(x_scaled) # 找到主成分

# 变换数据集方向

x_pca = pca.transform(x_scaled) # 旋转并降维

print(x_scaled.shape) # 原始数据形状：(569, 30)

print(x_pca.shape)

最低0.47元/天解锁文章

weixin_39635373

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python高维数据可视化_【机器学习】（十六）主成分分析PCA：高维数据可视化、特征提取...

主成分分析(PCA)是一种旋转数据集的方法，旋转后的特征在统计上不相关。用PCA做数据变换首先，算法在原始数据点集中，找到方差最大的方向(包含最多信息)，标记为‘成分1’。->找到与“成分1”正交(成直角)且包含最多信息的方向，标记为“成分2”。利用这一过程找到的方向被称为主成分(重建的最佳方向)，一般主成分个数和原始特征数相同。从数据中减去平均值，是的变换后的数据以0为中心->旋转数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。