主成分分析(PCA)

过程

1、1对原始数据进行标准化

xi=XiXi¯Si

协方差:

Cov(X,Y)=ni=1(XiX¯)(YiY¯)n1=E[(XiE(x))(YiE(Y))]

相关系数:

Corr(X,Y)=Cov(X,Y)var(X)var(Y)=Cov(X,Y)σxσy

1.2计算协方差矩阵

Cn×n=(ci,j,ci,j=cov(Dimi,Dimj))

若数据集有{ x,y,z }三个维度,则协方差矩阵为
C=cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)

1.3计算特征值和特征向量
1.4计算贡献率和累计贡献率

贡献率

λipk=1λk(i=1,2,...,p)

累计贡献率
ik=1λipk=1λk(i=1,2,...,p)

2、原理

2.1 最大方差理论

在信号处理中认为信号具有较大的方差,噪声有较小的方差。如下图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。

这里写图片描述

下面将样本投影到某一维上,这里用一条过原点的直线表示(前处理的过程实质是将原点移到样本点的中心点)。
这里写图片描述
假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大

2.2公式推导

这里写图片描述

投影点的方差为:

1mi=1m(x(i)Tu)2=1mi=1muTx(i)x(i)Tu=uT(1mi=1mx(i)x(i)T)u(2.1)

u|u|=1,

|xi|cosθ=|xi|x(i)Tu|xi||u|=x(i)Tu

λ=1mmi=1(x(i)Tu)2,λ

Σ=1mmi=1x(i)x(i)Tx(i)0Σ

所以2.1能改写成如下形式:

λ=uTΣu(2.2)

uuTu=1u,uλ=λu=uuTΣu=Σu

λu=Σu(2.3)

λΣu线λ

yi=uT1x(i)uT2x(i)uTkx(i)(2.4)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值