pca各个向量之间的相关度_浅谈对主成分分析(PCA)算法的理解

PCA(主成分分析)是一种用于降低数据维度的方法,它基于K-L变换,通过寻找数据相关矩阵的特征向量来实现。K-L变换是最优正交变换,能够最小化均方误差。PCA通过对协方差矩阵进行特征分解,得到特征向量,这些特征向量构成的子空间可以用来重构原始数据。在人脸识别中,PCA常用于特征提取,通过保留重要的特征向量(即特征脸),可以实现数据的有效降维。实验展示了PCA在人脸识别中的应用,通过保留4个特征向量,重构的人脸图像虽然丢失一些细节,但仍能识别出主要特征。
摘要由CSDN通过智能技术生成

以前对PCA算法有过一段时间的研究,但没整理成文章,最近项目又打算用到PCA算法,故趁热打铁整理下PCA算法的知识。本文观点旨在抛砖引玉,不是权威,更不能尽信,只是本人的一点体会。

主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,它的本质实际上是K-L变换。PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度。著名的人脸识别Eigenface算法就是采用PCA算法,用一个低维子空间描述人脸图像,同时用保存了识别所需要的信息。下面先介绍下PCA算法的本质K-L变换。

1、K-L变换(卡洛南-洛伊(Karhunen-Loeve)变换):最优正交变换

一种常用的特征提取方法;

最小均方误差意义下的最优正交变换;

在消除模式特征之间的相关性、突出差异性方面有最优的效果。

离散K-L变换:对向量x(可以想象成 M维=width*height的人脸图像原始特征)用确定的完备正交归一向量系uj展开:

5a8098d0170342b982b3764c88f2d5bb.png

c9e4a9deebeeed6b6984a16a290bc604.png

这个公式由来我想应该是任一n维欧式空间V均存在正交基,利用施密特正交化过程即可构建这个正交基。

现在我们希望用d个有限项来估计向量x,公式如下:

9f7036c6b9d6288d4bfb63b9dee0006d.png

计算该估计的均方误差如下:

e8dac768ceb2dca0ec82f53d54706e8c.png

要使用均方误差最小,我们采用Langrange乘子法进行求解:

471ac750a481ff2f28b9aa12d89e83cc.png

f8b8e511d0874c0fb0a4c1c3084cd23e.png

因此,当满足上式时,

3dfde3ea0be1be2e25af86821d76d0a2.png取得最小值。

即相关矩阵R的d个特征向量(对应d个特征值从大到小排列)为基向量来展开向量x时,其均方误差最小,为:

6618f69bd01ba75d9ff664fb6a1e81c6.png

因此,K-L变换定义:当取矩阵R的d个最大特征值对应的特征向量来展开x时,其截断均方误差最小。这d个特征向量组成的正交坐标系称作x所在的D维空间的d维K-L变换坐标系, x在K-L坐标系上的展开系数向量y称作x的K-L变换。

总结下,K-L变换的方法:对相关矩阵R的特征值由大到小进行排队,

2677695890a7f29ee408526ea13ec921.png

则均方误差最小的x近似于:

19d2a19b37b32fa537dfda7b2178239d.png

矩阵形式:

9faa20ad095fff457746c07270a11819.png

上式两边乘以U的转置,得

190e23f121a447acc9376d1355069123.png

向量y就是变换(降维)后的系数向量,在人脸识别Eigenface算法中就是用系数向量y代替原始特征向量x进行识别。

下面,我们来看看相关矩阵R到底是什么样子。

55006346072340abfd3a1167371fb6a5.png

因此,我们可以看出相关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值