主成分分析的数学原理推导(涉及统计学和线性代数内容)

引言: 当存在若干随机变量时,寻求它们的少数线性组合(即主成分),用以解释这些随机变量就很重要.

吴诚鸥,秦伟良著. 近代实用多元统计分析[M]. 2007

定义: 对于n维随机变量 X = ( x 1 , x 2 , … , x n ) T \bold{X}=(x_1,x_2,\dots,x_n)^T X=(x1,x2,,xn)T,构建一个 X \bold{X} X的线性组合 Y = c 1 x 1 + c 2 x 2 + ⋯ + c n x n Y=c_1x_1+c_2x_2+\dots+c_nx_n Y=c1x1+c2x2++cnxn,也可记作 Y = C X Y=\bold{C}\bold{X} Y=CX,其中 C = ( c 1 , c 2 , … , c n ) \bold{C}=(c_1,c_2,\dots,c_n) C=(c1,c2,,cn),在 ∣ C ∣ = 1 |\bold{C}|=1 C=1的条件下,使得 D ( Y ) D(Y) D(Y)达到最大,则称 Y Y Y X X X的第一主成分.

背景知识:

在正式推导之前,需要回顾一下统计学和线性代数的部分内容.

《统计学》—— 协方差与方差

c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) ; cov(X,Y) =E(XY)-E(X)E(Y); cov(X,Y)=E(XY)E(X)E(Y);

X X X Y Y Y的协方差 等于 X X X Y Y Y乘积的期望 减去 X X X Y Y Y期望的乘积。协方差实际上是将 X X X Y Y Y分别中心化以后乘积的期望。

c o v ( X , Y ) = c o v ( Y , X ) ; cov(X,Y)=cov(Y,X); cov(X,Y)=cov(Y,X);
c o v ( k X , l Y ) = k l c o v ( X , Y ) ; cov(kX,lY)=klcov(X,Y); cov(kX,lY)=klcov(X,Y);

D ( X ) = c o v ( X , X ) ; D(X)=cov(X,X); D(X)=cov(X,X);

D ( X , Y ) = E ( X 2 ) − [ E ( X ) ] 2 ; D(X,Y) =E(X^2)-[E(X)]^2; D(X,Y)=E(X2)[E(X)]2;
D ( k X + c ) = k 2 D ( X ) ; D(kX+c)=k^2D(X); D(kX+c)=k2D(X);
D ( X + Y ) = D ( X ) + D ( Y ) + 2 c o v ( X , Y ) . D(X+Y)=D(X)+D(Y)+2cov(X,Y). D(X

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值