PCA

PCA本质上是一个有损的特征压缩过程,但是我们期望损失的精度尽可能地少,也就是希望压缩的过程中保留最多的原始信息。要达到这种目的,我们希望降维(投影)后的数据点尽可能地分散。

基于这种思想,我们希望投影后的数据点尽可能地分散。而这种分散程度在数学上可以利用方差来表示。设降维后的特征为 A,也就是希望 $var(A)= \frac{1}{m}\sum_{i}^{m}({a}_{i}-{\mu}_{a} )^{2}$,而由于在PCA降维前,一般已经做了特征零均值化处理,为了方便,记$var(A)= \frac{1}{m}\sum_{i}^{m}({a}_{i})^{2}$,同样,为了减少特征的冗余信息,我们希望降维后的各特征之间互不相关。而不相关性可以用协方差来衡量。设降维后的两个特征为A、B的协方差为0。

所以问题就是对Y进行对角化,即方差最大而协方差为0。运用到谱分解(特征向量和特征值)。

 

转载于:https://www.cnblogs.com/xcxy-boke/p/11405052.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值