PCA及白化的数学理解

PCA(principal components analysis),是一种降维和去除相关性的方法,它通过方差来评价特征的价值,认为方差大的特征包含信息多,应予以保留。

这里写图片描述,每个样本X是d*1维度。

首先对每一维特征0均值处理,求得特征的协方差矩阵A,那么
由于每个特征的均值为0,所以变成下面公式

在分析方差时,所以通过协方差矩阵特征值大小来看方差大小。所以将协方差矩阵相似对角化,协方差矩阵相似也就是对样本空间进行坐标变换。特征值就是变换后空间中特征的方差,因为变换后协方差矩阵变成对角形式,所以去除了相关性。
这样我们可以对特征值从大到下排序,选择前k个,然后把后面小的特征值设置为0,相应的特征向量也就是0了,我们得到变换后的数据
这里写图片描述

这样通过坐标变换和挑选特征值就实现了去相关和降维。

白化是将PCA去相关之后将每一特征的方差归一化到1,也就是吧变换后的特征都除以各自的标准差,这里写图片描述
当然如果在这过程中还想实现降维效果,可以设置保留方差的比例,如93%,筛除特征值即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值