pca主成分分析_PCA主成分分析（中）

最新推荐文章于 2022-10-03 11:57:20 发布

weixin_39673184

最新推荐文章于 2022-10-03 11:57:20 发布

阅读量145

点赞数

文章标签： pca主成分分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39673184/article/details/111288375

版权

矩阵——MATRIX，很容易让人们想到那部著名的科幻电影——《骇客帝国》。事实上，我们又何尝不是真的生活在MATRIX中。机器学习处理的大多数数据，都是以“矩阵”形式存储的。 矩阵是向量的组合，而一个向量代表一组数据，数据又是多维度的。 比如每个人的都具有身高、体重、长相、性情等多个维度的信息数据，而这些多维度信息数据就构成了一个人的信息向量。多个人的信息组合在一起，构成了一个信息矩阵。我们也把它称为样本。然而事实中我们遇到的信息维度往往是非常庞大的，所以就需要摒弃次要信息，保留主要信息。那么我们如何根据现有样本数据，决定该保留身高、体重、长相、性情中的哪些特征信息呢？其中身高和体重是关联比较大的，而长相、性情两方面特征与其他特征几乎无关联。从直觉上来讲，数据之间关联的程度越大，越容易“牵一发而动全身”，这种统一的“联动”能够，从另一个角度，用较少的信息说明较重要的问题。所谓降维，就是把这些“联动”的高维信息尽量压缩在一个低维信息内，我们叫它“主成分”。 而协方差矩阵，代表了多维信息之间相互关联程度。 我们从信息之间的关联程度出发，压缩关联程度高的信息并尽量保持原特征(去关联)，摒弃不相关的信息(去冗余)。

举个极端的例子，我们制作出这样一组数据：身高和体重存在简单的线性关系(正比关系)，而相貌不受身高、体重的任何影响。如下图所示

那么现在，我们计算取得上述信息矩阵A的其协方差矩阵C，如下图所示

不出意料，体重和相貌、身高和相貌之间的协方差值为0。再根据这个这个协方差矩阵C分解特征值，得出以下两个矩阵，一个为包含特征值的对角矩阵D，一个为特征值对应的特征向量所形成的矩阵X

协方差矩阵的特征值所构成的对角矩阵D：

所对应的特征向量所组成的特征矩阵X：

从上面两张图可以看出，特征值从大到小的顺序为：

77.8542895 >> 0.12487716 >> 0

显然协方差矩阵C为对称矩阵，所以根据线性代数的相关知识，矩阵C及其特征矩阵X以及特征值对角矩阵D之间，有如下关系：

我们看出特征值类似于一种“能量”，能量越大的特征值，对矩阵的“贡献”相对越大。特征值为0或几乎为0的那部分乘积项，可以被忽略掉。

在此我们只保留最大的特征值所对应的特征向量Y，这个向量Y作为压缩数据的方向

通过向量Y，用以下方式将原来的3维数据压缩为1维数据

P就是我们压缩后的信息,它映射一个唯一的主成分P1。

下图显示了压缩前后样本数据和主成分的变化关系

l h代表身高数据

l w代表体重数据

l a代表长相数据

l p1就是压缩后的主成分上的投影数据

从图中可以看出：

1. 压缩的后主成分p1和几乎保留了身高h的变化规律，

2. 体重w与h为正比关系。故此，w，h贡献给了主成分p1，

3. 长相a作为冗余数据被过滤掉。

那么为什么我们选择协方差矩阵最大特征值所对应的特征向量，就刚好能够使我们抽取原信息矩阵中的主成分呢？下一篇我们将阐述PCA降维的原理和依据。

weixin_39673184

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。