机器学习算法 | PCA(主成分分析)降维算法

一:PCA算法目的

根据样本矩阵X={x1,x2,…, Xm},以及当前样本空间中样本个数N,求得样本协方差矩阵XXT,中的最大的K个特征向量,并且利用这K个特征向量组成的矩阵进行低纬度降维,实现数据的主成分分析。

二:PCA降维的整体步骤

(1)对原始数据减去平均值,实现去中心化。
(2)求出样本空间中N个样本的样本协方差矩阵(XXT)。
(3)利用SVD奇异值分解(适用于任意矩阵) 或 特征值分解(只适用于方阵)对样本协方差矩阵进行特征向量,特征值的分解。
(4)对特征值进行降序排列,选出最大的K个,并将这K个特征值对应的特征向量组合成空间转移矩阵P(P的每一行代表了一个特征向量,P的维度:K*N)。
(5)将P左乘原特征空间中的样本,P左乘X(N*m),得到新特征空间中的样本 Y(K*m),实现降维的功能。从上述结果可以看出,这是对样本空间进行降维,而每个样本的特征个数m是不变的。

(note)如上述步骤中提到的,SVD进行奇异值分解有很大的好处。第一:根据其特性,分解的特征向量被分为左特征向量和右特征向量。左特征向量功能和特征分解得到的特征向量功能是一致的。而右特征向量可以对每个样本的特征个数m进行降维。第二:根据其特性,SVD对奇异值分解不需要对XXT特征空间协方差矩阵进行计算,这对处理样本空间过大的问题时,能够有效提升算法效率。

三:相关知识点

(1)协方差矩阵

由上面的公式,我们可以得到以下结论:

(1) 方差的计算公式是针对一维特征,即针对同一特征不同样本的取值来进行计算得到;而协方差则必须要求至少满足二维特征;方差是协方差的特殊情况,即自己和自己的协方差。

(2) 方差和协方差的除数是n-1,这是为了得到方差和协方差的无偏估计。

协方差为正时,说明X和Y是正相关关系;协方差为负时,说明X和Y是负相关关系;协方差为0时,说明X和Y是线性相互独立。Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。例如,对于3维数据(x,y,z),计算它的协方差就是:

(2)SVD奇异值分解算法
https://mp.weixin.qq.com/s/Dv51K8JETakIKe5dPBAPVg

(3)特征值最大的K个到底代表了什么

PCA有种通俗易懂的解释:最大方差理论。在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yuanCruise

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值