协方差矩阵与PCA原理深入剖析

本文详细探讨了协方差矩阵的概念及其在PCA(主成分分析)中的作用。首先,介绍了协方差矩阵的性质,强调其为实对称阵,并与正交矩阵的关系。接着,解释了协方差矩阵的计算方法,包括中心化样本和矩阵乘法。进一步,阐述了PCA的目标是降噪和去冗余,通过线性变换寻找一组新特征来重新表示数据,并且新特征间应尽可能相互独立。最后,讨论了实对称矩阵的特征向量性质,指出PCA中变换矩阵的选择,即由最大特征值对应的正交特征向量构成。
摘要由CSDN通过智能技术生成

一、协方差矩阵
首先,协方差矩阵一定是实对称阵。
正交矩阵的逆等于矩阵的转置。**
一个维度上方差的定义:
在这里插入图片描述
协方差的定义:
在这里插入图片描述
协方差就是计算了两个维度之间的相关性,即这个样本的这两个维度之间有没有关系。

协方差为0,证明这两个维度之间没有关系,协方差为正,两个正相关,为负则负相关。
协方差矩阵的定义:
对n个维度,任意两个维度都计算一个协方差,组成矩阵,定义如下:
在这里插入图片描述
直观的对于一个含有x,y,z三个维度的样本,协方差矩阵如下:
在这里插入图片描述
可以看出,对角线表示了样本在在各个维度上的方差。

其他元素表示了不同维度之间两两的关联关系。

二、协方差矩阵的计算
(1)先让样本矩阵中心化,即每一维度减去该维度的均值,使每一维度上的均值为0,

(2)然后直接用新的到的样本矩阵的转置乘上它自身(注意,这里我假设样本矩阵中,每一行代表一个样本,每一列表示一个维度,很多推导因为样本表示的不同可能会造成误会)

(3)然后除以(N-1)即可

数学推导相对容易,样本矩阵中心化以后,样本均值为0,因此式a中每个维度无需减去均值,只需要进行与其他维度的乘法,

这样就可以用转置相乘实现任意两两维度的相乘。

三、矩阵相乘的‘变换的本质’理解

A*B两个矩阵相乘代表什么?

A的每一行所表示的向量,变到B的所有列向量为基底表示的空间中去,得到的每一行的新的表示。

B的每一列所表示的向量,变到A的所有行向量为基底表示的空间中去,得到的每一列的新的表示。

四、PCA深入

PCA的目的是降噪和去冗余,是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。

样本矩阵的格式:

样本1 [特征a1,特征a2,特征a3,…,特征an]

样本2 [特征a1,特征a2,特征a3,…,特征an]

样本3 [特征a1,特征a2,特征a3,…,特征an]

样本4 [特征a1,特征a2,特征a3,…,特征an]

PCA后:r<n

样本1 [特征b1,特征b2,特征b3,…,特征br]

样本2 [特征b1,特征b2,特征b3,…,特征br]

样本3 [特征b1,特征b2,特征b3,…,特征br]

样本4 [特征b1,特征b2,特征b3,…,特征br]

直白的来说,就是对一个样本矩阵,

(1)换特征,找一组新的特征来重新表示

(2)减少特征,新特征的数目要远小于原特征的数目

我们来看矩阵相乘的本质,用新的基底去表示老向量,这不就是重新找一组特征来表示老样本吗???

所以我们的目的是什么?就是找一个新的矩阵(也就是一组基底的合集),让样本矩阵乘以这个矩阵,实现换特征+减少特征的重新表示。
因此我们进行PCA的基本要求是:

(1)第一个要求:使得样本在选择的基底上尽可能的而分散。

样本在基底上要尽可能分散了,这个分散就是样本在这个“基底上的坐标”(这个基底上的特征值)的方差要尽可能大

(2)第二个要求:使得各个选择的基底关联程度最小。

考虑一个三维点投影到二维平面的例子。这样需要俩基底。

基底得一个一个找啊,先找第一个,要找一个方向,使得样本在这个方向上方差最大。

再找第二个基底,怎么找,方差最大?这不还是找的方向和第一个差不多么?那这两个方向表示的信息几乎是重复的。

所以从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。所以最好就是选择和第一个基底正交的基底。

那怎么找呢?不能随便写一个矩阵吧?答案肯定是要基于原来的样本的表示。

我们求出了原来样本的协方差矩阵,协方差矩阵的对角线代表了原来样本在各个维度上的方差,其他元素代表了各个维度之间的相关关系。

也就是说我们希望优化后的样本矩阵,它的协方差矩阵,对角线上的值都很大,而对角线以外的元素都为0。

现在我们假设这个样本矩阵为X(每行对应一个样本),X对应的协方差矩阵为 X T X X^TX XTX(用上面的方法计算的,常数不影响计算,因此没有除),而P是我们找到的对样本进行PCA变换的矩阵,既一组基按列组成的矩阵,我们有Y = XP
Y即为我们进行PCA变换后的新的样本表示矩阵,则Y的协方差矩阵为 Y T Y Y^TY

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值