python sklearn PCA 实例-主成分分析

最新推荐文章于 2024-07-18 17:29:55 发布

Rankiy

最新推荐文章于 2024-07-18 17:29:55 发布

阅读量1w

点赞数 7

分类专栏： python 文章标签： python sklearn PCA 主成分分析

本文链接：https://blog.csdn.net/rankiy/article/details/99946057

版权

python 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

python sklearn decomposition PCA 主成分分析

主成分分析（PCA）

1、主成分分析（Principal Component Analysis,PCA）是最常用的一种降维方法，
通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理

2、PCA可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。
主成分能够尽可能保留原始数据的信息

3、概念
方差：用来度量一组数据的分散程度
协方差：用来度量两个变量之间的线性相关性程度，若两个变量的协议差为0，二者线性无关
协方差矩阵：矩阵的特征向量是描述数据集结构的非零向量，?? ⃗=?? ⃗
特征向量和特征值：? ⃗ 特征向量，?是特征值

4、提取：
矩阵的主成分是其协方差矩阵对应的特征向量，按照对应的特征值大小进行排序，最大的特征值就是第一主成分，其次是第二主成分

5、原理：
1、对所有样本进行中心化:xi-(x1+x2…xm)/m
2、计算样本的协方差矩阵X(X.T)
3、对协方差矩阵X(X.T)做特征值分解
4、取最大的d个特征值所对应的特征向量w1,w2…wd
输出投影矩阵W=(w1,w2,…,wd)

6、参数说明
sklearn.decomposition.PCA(n_components=None,copy=True,whithen=False,svd_solver=‘auto’,tol=0.0,
iterated_power=‘auto’,random_state=None)
n_components:指定主成分的个数，即降维后数据的维度
svd_slover:设置特征值分解的方法：‘full’,‘arpack’,‘randomized’

PCA实现高维度数据可视化实例
目标：
已知鸢尾花数据是4维的，共三类样本，使用PCA实现对鸢尾花数据进行降维，实现在二维平面上的可视化

实例程序编写

import matplotlib.pyplot as plt
import sklearn.decomposition as dp
from sklearn.datasets.base import load_iris

x,y=load_iris(return_X_y=True) #加载数据，x表示数据集中的属性数据，y表示数据标签
pca=dp.PCA(n_components=2) #加载pca算法，设置降维后主成分数目为2
reduced_x=pca.fit_transform(x) #对原始数据进行降维，保存在reduced_x中
red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]
for i in range(len(reduced_x)): #按鸢尾花的类别将降维后的数据点保存在不同的表表中
    if y[i]==0:
        red_x.append(reduced_x[i][0])
        red_y.append(reduced_x[i][1])
    elif y[i]==1:
        blue_x.append(reduced_x[i][0])
        blue_y.append(reduced_x[i][1])
    else:
        green_x.append(reduced_x[i][0])
        green_y.append(reduced_x[i][1])
plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

Rankiy

关注

7
点赞
踩
60

收藏

觉得还不错? 一键收藏
2
评论
python sklearn PCA 实例-主成分分析

python sklearn decomposition PCA 主成分分析主成分分析（PCA）1、主成分分析（Principal Component Analysis,PCA）是最常用的一种降维方法，通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理2、PCA可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。主成分能够尽可能保留原始数据的信息3、概念方差：用...
复制链接

扫一扫

专栏目录