不懂PCA?一个小实例带你了解PCA降维

目录

一、数据预处理

步骤1:将原始数据按列组成n行m列矩阵X:

步骤2:对X矩阵每一行进行零均值化:

二、求协方差矩阵及其特征值和特征向量

求协方差矩阵

公式:

特征值和特征向量:

特征值:

特征向量:

三、将特征向量组成矩阵P并对其进行对角化验证

p矩阵:

对角化验证:

四、数据降维

五、PCA优缺点

优点:

缺点:


PCA降维是一种常用的数据分析方法,它通过将高维数据映射到低维空间来表示主成分分析的主要特征分量。这种方法的目标是在所投影的维度上使数据的方差最大,同时尽量使新的特征互不相关。

pca推导详见pca降维的推导

一、数据预处理

步骤1:将原始数据按列组成n行m列矩阵X:

例如:

步骤2:对X矩阵每一行进行零均值化:

也就是减去这一行的均值

第一行均值:(1+1+2+4+2)/ 5 = 2

每一个数据以此减去均值,得到零均值化数据(-1,-1,0,2,0)

第二行均值:(1+3+3+4+4)/ 5 = 3

每一个数据以此减去均值,得到零均值化数据(-2,0,0,1,1)

二、求协方差矩阵及其特征值和特征向量

求协方差矩阵

公式:

                            C = \frac{1}{m}XX^{T}

X   :  矩阵

X^{T}:X矩阵的转置

m   :  特征数量

前面得到去均值化的X矩阵,利用公式,求得协方差矩阵

特征值和特征向量:

特征值:

利用公式计算特征值

E :二维单位矩阵

主对角线减去次对角线等于0即可求得特征值

这里将结果乘以5,对结果不影响

特征向量:

λ1λ2分别带入 𝝀𝑬 − C =0即可。

三、将特征向量组成矩阵P并对其进行对角化验证

p矩阵:

P = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{-\sqrt{2}}\\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix}

对角化验证:

四、数据降维

Y=PX即为降维到k维后的数据。

五、PCA优缺点

优点:

  1.计算方法简单,容易实现。
  2可以减少指标筛选的工作量。
  3消除变量间的多重共线性。
  4在一定程度上能减少噪声数据。

缺点:

  1.特征必须是连续型变量。
  2无法解释降维后的数据是什么。
  3贡献率小的成分有可能更重要。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值