主成分分析碎石图_主成分分析大全

1 背景

主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多变量的统计方法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目,与因子分析类似。

所谓降维,就是把具有相关性的变量数目减少,用较少的变量来取代原先变量。如果原始变量互相正交,即没有相关性,则主成分分析没有效果。

在生物信息学的实际应用情况中,通常是得到了成百上千个基因的信息,这些基因相互之间会有影响,通过主成分分析后,得到有限的几个主成分就可以代表它们的基因了。也就是所谓的降维。

R语言有非常多的途径做主成分分析,比如自带的princomp()和psych包的principal()函数,还有gmodels包的fast.prcomp函数。

2 拆解主成分分析步骤

实际应用时我们通常会选择主成分分析函数,直接把input数据一步分析到位,只需要看懂输出结果即可。但是为了加深理解,这里一步步拆解主成分分析步骤,讲解原理。

2.1 测试数据

数据集USJudgeRatings包含了律师对美国高等法院法官的评分。数据框包含43个样本,12个变量!

下面简单看一看这12个变量是什么,以及它们的相关性。

library(knitr)

kable(head(USJudgeRatings))

CONT

INTG

DMNR

DILG

CFMG

DECI

PREP

FAMI

ORAL

WRIT

PHYS

RTEN

AARONSON,L.H.

5.7

7.9

7.7

7.3

7.1

7.4

7.1

7.1

7.1

7.0

8.3

7.8

ALEXANDER,J.M.

6.8

8.9

8.8

8.5

7.8

8.1

8.0

8.0

7.8

7.9

8.5

8.7

ARMENTANO,A.J.

7.2

8.1

7.8

7.8

7.5

7.6

7.5

7.5

7.3

7.4

7.9

7.8

BERDON,R.I.

6.8

8.8

8.5

8.8

8.3

8.5

8.7

8.7

8.4

8.5

8.8

8.7

BRACKEN,J.J.

7.3

6.4

4.3

6.5

6.0

6.2

5.7

5.7

5.1

5.3

5.5

4.8

BURNS,E.B.

6.2

8.8

8.7

8.5

7.9

8.0

8.1

8.0

8.0

8.0

8.6

8.6

这12个变量的介绍如下:

[,1] CONT Number of contacts of lawyer with judge.

[,2] INTG Judicial integrity.司法诚实性

[,3] DMNR Demeanor.风度;举止;行为

[,4] DILG Diligence.勤奋,勤勉;注意的程度

[,5] CFMG Case flow managing.

[,6] DECI Prompt decisions.

[,7] PREP Preparation for trial.

[,8] FAMI Familiarity with law.

[,9] ORAL Sound oral rulings.

[,10] WRIT Sound written rulings.

[,11] PHYS Physical ability.

[,12] RTEN Worthy of retention.

这些是专业领域的用词,大家可以先不用纠结具体细节。

2.2 为什么要做主成分分析

不管三七二十一就直接套用统计方法都是耍流氓,做主成分分析并不是拍脑袋决定的。 在这个例子里面,我们拿到了这43个法官的12个信息,就可以通过这12个指标来对法官进行分类,但也许实际情况下收集其他法官的12个信息比较麻烦,所以我们希望只收集三五个信息即可,然后也想达到比较好的分类效果。或者至少也得剔除几个指标吧,这个时候主成分分析就能派上用场啦。这12个变量能得到12个主成分,如果前两个主成分可以揭示85%以上的变异度,也就是说我们可以用两个主成分来代替那12个指标。

在生物信息学领域,比如我们测了1000个病人的2万个基因的表达矩阵,同时也有他们的健康状态信息。那么我们想仔细研究这些数据,想得到基因表达与健康状态的某种关系。这样我就可以对其余几十亿的人检测基因表达来预测其健康状态。如果我们进行了主成分分析,就可以选择解释度比较高的主成分对应的基因,可能就几十上百个而已,大幅度的降低广泛的基因检测成本。

2.3 step1:数据标准化(中心化)

dat_scale=scale(USJudgeRatings,scale=F)

options(digits=4, scipen=4)

kable(head(dat_scale))

CONT

INTG

DMNR

DILG

CFMG

DECI

PREP

FAMI

ORAL

WRIT

PHYS

RTEN

AARONSON,L.H.

-1.7372

-0.1209

0.1837

-0.393

-0.3791

-0.1651

-0.3674

-0.3884

-0.193

-0.3837

0.3651

0.1977

ALEXANDER,J.M.

-0.6372

0.8791

1.2837

0.807

0.3209

0.5349

0.5326

0.5116

0.507

0.5163

0.5651

1.0977

ARMENTANO,A.J.

-0.2372

0.0791

0.2837

0.107

0.0209

0.0349

0.03

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值