PCA降维大纲

PCA降维主要依靠找出特征向量的前k个主成分,将特征向量由n维缩减到k维(k<<n),同时保证信息没有太大的丢失,如何选出主成分,根据常理,数据分散要比数据密集更易区分些,因此根据原始数据映射到各个主成分上时,得到的方差的大小来确定主成分的优先级。

主要途径就是通过协方差矩阵(协方差矩阵主对角线是各个特征的特征值方差,其余数值为两两特征之间的协方差,协方差表示两个数据的相关程度,为0则不相关,为1则强相关),分解协方差矩阵,得到特征值和特征向量,特征值为各个特征(可以看做是基)的方差,前面提到,方差越大越好,因此这里对特征值从小到大排序,选出前k大的特征值,其对应的向量即为我们需要的变换基,根据这组变换基,我们就能把数据映射到新的坐标系,完成pca降维的操作。

相关的问题:

1:特征数值归零化:

 

 

这是常见的求解方差的公式,

 

我们令各个值减去期望,即处理后的特征值的期望为0,简化了求解。

相应的协方差如下:

 

通过x*x转秩,我们求出了x的协方差矩阵(这里的x是一个特征矩阵,每一行代表一种特征,每一列代表一条数据,a和b是两个特征,m是样本的个数):

 

可以看到,主对角为各个特征的方差,其余位置为协方差。我们要求的是协方差为0的一组数值,可以假设P可以完成原数据向新数据的转换:

 

Y即为转换后的数据,其协方差矩阵是个对角阵(协方差为0,只有方差),展开后可得上式。

AV=sV:s为特征值(方差),V为特征向量(转换基),再结合上式看,可以得出,我们只需要对X的协方差矩阵进行分解,即可得到这组正交基,通过特征值(方差)排序,即得到了主成分,完成降维。

Y*Y的转秩的意义:

什么样的坐标算是好坐标?数据应该在该坐标的投影比较分散,同时和其他坐标没有关联。因此在寻找坐标时,需要在跟其他坐标没有关联(相互垂直)的情况下,找这些样本通过映射后再坐标上的投影最分散,即投影方差最大的坐标。

Y即是经过转秩后的数据,每一行代表的是各个样本在该坐标(特征)上的值(即投影),该行的每个值平方后再求该行的和即平方和,即样本集在该坐标(特征)上的方差和(前提是已经减去期望值)。而每行的每个值平方后求和这个操作换成矩阵运算就是Y*Y的转秩,两个行之间的平方和,就是两个坐标(特征)的协方差,协方差代表的是两个特征有无联系,因此一个完美的转换后坐标系应该是方差存在,协方差为0的对角阵。这时只需要找到方差最大的几个特征值对应的特征向量(由原始的数据坐标系转换为Y)即可求解出如何对元数据进行降维,这就是PCA降维。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值