从算法过程来粗略了解PCA及python实现

最新推荐文章于 2024-03-07 15:45:07 发布

T-RAX

最新推荐文章于 2024-03-07 15:45:07 发布

阅读量246

点赞数

文章标签： PCA PYTHON

本文链接：https://blog.csdn.net/weixin_42920870/article/details/84895122

版权

从算法过程来粗略了解PCA及python实现

算法过程：

（参考机器学习231页）
在这里插入图片描述

每一步过程分析：

1.这里采用数据中心化
数据中心化:是指变量减去它的均值。
#数据标准化:是指数值减去均值，再除以标准差。
目的:通过中心化和标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据。
标准化可以使得不同的特征具有相同的尺度（Scale）

2.计算协方差矩阵（由百度百科）
在这里插入图片描述

3.对协方差矩阵做特征值分解
线性代数里的知识，但是计算机代码如何实现没有深究
在这里插入图片描述

4.取前k（k定义的维度）大的特征值，返回对应的特征向量组成投影矩阵

5.数据矩阵与投影矩阵相乘得到降维后的结果

基于python实现的PCA代码：

def pca(X,k):
    # 矩阵X每行是一个样本（已经中心化）

    # 协方差矩阵
    C=np.cov(X,rowvar=0)
    # rowvar=0，说明传入的数据一行代表一个样本，
    # 若非0，说明传入的数据一列代表一个样本

    # 特征值，特征向量
    eigvalue,eigvector=np.linalg.eig(np.mat(C))  # 特征值，特征向量

    #取前k个列向量构成变换矩阵
    indexVec=np.argsort(-eigvalue)    # 对covEigenVal从大到小排序，返回索引
    nLargestIndex=indexVec[:k]   # 取出最大的特征值的索引
    T=eigvector[:,nLargestIndex]   # 取出最大的特征值对应的特征向量
    newX=np.dot(X,T)  #将 X矩阵降维得到newX

    return newX,T  # 返回降维后矩阵newX，变换矩阵T

可以探讨问题：

1.为什么数据要中心化？
使数据中心和坐标中心对齐；方便后续协方差矩阵计算；
还有没有其他的原因呢？
2.PCA为什么用协方差矩阵求解？
最近重构性；最大可分性的分析中如何理解？

T-RAX

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从算法过程来粗略了解PCA及python实现

从算法过程来粗略了解PCA及python实现算法过程：（参考机器学习231页）每一步过程分析：1.这里采用数据中心化数据中心化:是指变量减去它的均值。#数据标准化:是指数值减去均值，再除以标准差。目的:通过中心化和标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据。标准化可以使得不同的特征具有相同的尺度（Scale）2.计算协方差矩阵（由百度百科）3.对协方差矩阵...
复制链接

扫一扫