主成分分析法

写在开头:古有张溥七录斋,所读书必手抄,抄已朗诵一过,即焚之,又抄,如是者六七始已。学习东西,虽不能到达这样的地步,心向往之,故以后多把学的东西写出来,这样其实又会收获很多。

主要文献:网络博客,《数据挖掘与数学建模》廖芹等编著

一:概述

    在处理多元样本数据时,首先 遇到的问题就是观测数据很多,如果有p个对象,每个对象观测了n个数据,则共有p*n个数据。如何从这些数据中提取出主要的规律,从而分析样本或者总体的主要性质呢?这就是主成分分析法要解决的问题。

   主成分分析法是一种把原来多个指标变量转换为少数几个互相独立的综合指标变量的统计方法。主成分分析法并不是去分析比较各个指标的重要性,将那些不重要的指标简单的去掉,而是通过全面分析各项指标所携带的信息,从中提取出一些潜在的综合性指标(称为主成分)。因此从概率的角度要求这几项综合指标变量之间互相是不相关的。

二:主成分分析的数学模型

   把原问题表述为:设X1,X2,...,Xp是原始变量,需要求变量Z1,Z2,...Zm满足m<p,Zi与Zj不相关,即cov(Zi,Zj)=0,D(Zi)较大。求m个新变量Zi能代表p个原始变量xi的大部分变异信息,且维数降低。

    对X1,X2,...Xp观察了n次,得到观察数据矩阵为:

 

 

其中

 

 

用数据矩阵X的p个向量,X1,X2,...Xp做线性组合(即综合指标向量为)为:

这里关键是求出aij,i,j=1,2,...p,使上式中能找出m,满足m<p,Zi与Zj不相关且D(Zi)最大,i=1,2,...,m。

对X1,X2,...Xp做标准化变换,使E(Xi)=0,D(Xi)=1.若λi是矩阵的特征根,βi是相应的单位特征向量,βi=(βi1,βi2,...,βip),当

时,可以证明以下结论:

1)D(Z1) =λ1,D(Z2) =λ2,...D(Zp) =λp,把λi(i=1,2,..p)从大到小排序,不妨设λ1≥λ2≥...≥λp≥0,则有D(Z1)≥D(Z2)≥...≥D(Zp)

2)当p个特征向量不相等时,βi1,βi2,...,βip彼此正交,即βi1,βi2,...,βip不相关,所以Z1,Z2,...Zp也不相关。

3)由

即Zi表示的变异信息与Xi表示的变异信息一致,可以通过选择合适的R来确定合适的m,即

R的期望表示变异信息的比例,一般取85%~95%.

 

三:主成分析计算步骤及应用

设原始变量X1,X2,...,Xp的观测n次数据矩阵为:

1)将原始数据标准化,为了方便,我们将标准化的数据矩阵任然记为X。

2)求相关系数矩阵R,

其中rij=rji,rii = 1

3)求R的特征方程det(R-λE)=0的特征根λ1≥λ2≥...≥λp≥0

4)根据具体的情况下你需要的变异信息比例,确定你的主成分个数m

5)计算m个相应的单位特征向量为:

6)写出主成分为

整个步骤就是这样子了。话说这么写公式真是很烦啊,还不能直接粘贴公式,现在论坛正在升级,但愿能加入这个功能。

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值