特征锦囊：怎么简单使用PCA来划分数据且可视化呢？

最新推荐文章于 2024-04-23 18:05:34 发布

Pysamlam

最新推荐文章于 2024-04-23 18:05:34 发布

阅读量1.3k

点赞数 1

本文链接：https://blog.csdn.net/Pysamlam/article/details/104111923

版权

本文介绍了PCA（主成分分析）作为降维算法的基本概念，并通过iris数据集展示了PCA如何用于数据划分和可视化。PCA将高维特征转换为少数主成分，帮助简化数据并揭示关键信息。

摘要由CSDN通过智能技术生成

今日锦囊

特征锦囊：怎么简单使用PCA来划分数据且可视化呢？

PCA算法在数据挖掘中是很基础的降维算法，简单回顾一下定义：

PCA，全称为Principal Component Analysis，也就是主成分分析方法，是一种降维算法，其功能就是把N维的特征，通过转换映射到K维上（K<N），这些由原先N维的投射后的K个正交特征，就被称为主成分。

我们在这里使用的数据集iris，来弄一个demo：

# 导入相关库
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
%matplotlib inline

#解决中文显示问题，Mac
%matplotlib inline
from matplotlib.font_manager import FontProperties
# 设置显示的尺寸
plt.rcParams['font.family'] = ['Arial Unicode MS'] #正常显示中文

# 导入数据集
iris = load_iris()
iris_x, iris_y = iris.data, iris.target

# 实例化
pca = PCA(n_components=2)

# 训练数据
pca.fit(iris_x)
pca.transform(iris_x)[:5,]

# 自定义一个可视化的方法
label_dict = {i:k for i,k in enumerate(iris.target_names)}
def plot(x,y,title,x_label,y_label):
    ax = plt.subplot(111)
    for label,marker,color in zip(
    range(3),('^','s','o'),('blue','red','green')):
        plt.scatter(x=x[:,0].real[y == label],
                   y = x[:,1].real[y == label],
                   color = color,
                   alpha = 0.5,
                   label = label_dict[label]
                   )
        
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    
    leg = plt.legend(loc='upper right', fancybox=True)
    leg.get_frame().set_alpha(0.5)
    plt.title(title)

# 可视化
plot(iris_x, iris_y,"原始的iris数据集","sepal length(cm)","sepal width(cm)")
plt.show()

plot(pca.transform(iris_x), iris_y,"PCA转换后的头两个正交特征","PCA1","PCA2")