浅谈PCA算法

PCA(Principal Component Analysis)是一种数据分析方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量,常用于高维数据的降维。降低数据的维度是非常有用的,如我们看到数据的分布仅限于2维或者3维,低维数据可以在数值算法中明显减少运行时间,而且许多统计模型存在协变量的高度相关,PCA就可以产生不相关协变量的线性组合。


PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征,这k维特征称为主元(Principal Component),是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

 

PCA计算过程

 

第一步,数据预处理

 

这一步主要是让数据正规化,主要采用scaling技术---Unit variance(UV)scaling。

 


 

通过UV scaling可以将不同范围大小的变量变为范围大小相同的变量。

 


 

但是,变量的均值仍然不同,为此采用数据预处理的另一种方法,mean-centering。Mean-centering先计算出变量的均值,然后让每个变量减去该均值。

 


 

为了更好地学习PCA,我们给出一个二元变量的数据样本,共有20个样例,组成20*2的矩阵X(Data Matrix)。

 


 

在二维平面上做出这20个样例的散点分布图:

 


 <

  • 7
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值