相关性分析

目录



“工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。

相关性分析

顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多个角度立体地剖析相关性分析有助于我们更立体地掌握相关性分析:

从随机变量之间的关系角度

  • 线性相关(Pearson Spearman Rank Kendall Rank)
  • 非线性相关

从随机变量自身的分布类型角度

  • 连续变量与连续变量(Pearson Spearman Rank Kendall Rank)

  • 连续变量与分类变量(Spearman Rank Kendall Rank)

相关性检验

Pearson(皮尔逊相关系数)

皮尔逊相关系数适用于:

  • 两个变量之间是线性关系,都是连续数据;
  • 两个变量的总体是正态分布,或接近正态的单峰分布;
  • 两个变量的观测值是成对的,每对观测值之间相互独立。

随机变量、的皮尔逊相关系数计算公式如下:

ρX,Y=Cov(X,Y)σXσY ρ X , Y = C o v ( X , Y ) σ X σ Y

Cov(X,Y) C o v ( X , Y ) 为随机变量 X X Y的协方差, (σX,σY) ( σ X , σ Y ) 分别表示随机变量 X X Y的标准差, ρX,Y[0,1] ρ X , Y ∈ [ 0 , 1 ] ,越大代表随机相关性越强。

Spearman(秩相关系数)

Spearman秩相关系数适用于:

  • 随机变量是成对的有序分类变量;
  • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

随机变量 X X Y的Spearman秩相关系数 ρS ρ S 计算如下,对原始随机变量 xi x i yi y i 降序排序,记 dxi d i x dyi d i y 为原始 xi x i yi y i 在排序后列表中的位置, dxi d i x dyi d i y 称为 xi x i yi y i 的秩次,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在 X X (极为Tx)或相持在变量 Y Y 上(记为Ty),秩次差 di=dxidyi d i = d i x − d i y 。Spearman秩相关系数为:

  • 没有相持等级
    ρS=16d2in(n21) ρ S = 1 − 6 ∑ d i 2 n ( n 2 − 1 )
  • 有相持等级
    ρS=x2+y2d2i2x2y2,x2=N3N12Tx,y2=N3N12Ty ρ S = ∑ x 2 + ∑ y 2 − ∑ d i 2 2 ∑ x 2 ∑ y 2 , ∑ x 2 = N 3 − N 12 − ∑ T x , ∑ y 2 = N 3 − N 12 − ∑ T y

举个例子:

xi x i yi y i dxi d i x dyi d i y di d i
47561
4467110
159451
2354220
1821341
23363-3

对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571

Kendall Rank(肯德尔相关系数)

肯德尔相关系数适用于:

  • 随机变量是成对的有序分类变量
  • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

肯德尔系数的定义: n n 个同类的统计对象按特定属性排序,其他属性通常是乱序的。P为和谐对(变量大小顺序相同的样本观测值)的个数、 Q Q f不和谐对(变量大小顺序相同的样本观测值), n n 为随机变量容量。一对观测值中,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(记为 Tx T x )或相持在变量上 Y Y (记为Ty ),因此公式可以表示为:

  • 没有相持等级

τb=2(PQ)n(n1) τ b = 2 ( P − Q ) n ( n − 1 )

  • 有相持等级

τb=PQ(P+Q+Tx)(P+Q+Ty) τ b = P − Q ( P + Q + T x ) ( P + Q + T y )

Kappa一致性系数

Kappa一致性系数适用于:

  • 随机变量是成对的分类变量

随机变量 X X Y Kappa K a p p a 一致性系数 K K 计算公式如下:

K=P(A)P(E)1P(E),P(A)=1NK(K1)i=1Nj=1mnij21K1,P(E)=j=1mPj2,Pj=CjNK,Cj=i=1Nnij

N N 为随机变量容量,K为一致预测, nij n i j 为细格预测数,也可以表示为:

K=p0pc1pc K = p 0 − p c 1 − p c

举例:

预测\实际 A A B C C
A 2392116
B B 16 73 4
C69280

p0=239+73+280664=0.8916,pc=261276+10393+300295664664=0.3883,K=0.89160.388310.3883 p 0 = 239 + 73 + 280 664 = 0.8916 , p c = 261 ∗ 276 + 103 ∗ 93 + 300 ∗ 295 664 ∗ 664 = 0.3883 , K = 0.8916 − 0.3883 1 − 0.3883

卡方检验

卡方检验适用于:

  • 随机变量是成对的分类变量;
  • 最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。

卡方检验是以 χ2 χ 2 分布为基础的一种常用假设检验方法,它的无效假设 H0 H 0 是:两个分类变量之间无关。

χ2=ki=1(Ainpi)2npi χ 2 = ∑ i = 1 k ( A i − n p i ) 2 n p i , A_i为水平 i i 的观察频数,n为总频数, pi p i 为水平 i i 的期望频率。k为单元格数。当 n n 比较大时,χ2统计量近似服从个自由度 k1 k − 1 的卡方分布。

举例:

组别有效无效合计
14(13.6)20(21.9)34
16(16.4)25(24.6)41
合计304575

第1行1列: 34×30/75=13.6

第1行2列: 34×45/75=21.9

第2行1列: 41×30/75=16.4

第2行2列: 41×45/75=24.6

χ2=(1413.6)213.6+(2021.9)221.9+(1616.4)216.4+(2524.6)224.6=0.1929 χ 2 = ( 14 − 13.6 ) 2 13.6 + ( 20 − 21.9 ) 2 21.9 + ( 16 − 16.4 ) 2 16.4 + ( 25 − 24.6 ) 2 24.6 = 0.1929

不能拒绝原假设,认为随机变量不相关。

Fisher精确检验

  • 在卡方检验的基础上,如果样本量不足40,或者最小理论频数小于5;
  • 如果卡方检验的p值在0.05左右,使用Fisher精确检验。

假设二分类变量,如下,值计算如下:

性别合计
有效aba+b
无效cdc+d
合计a+cb+da+b+c+d

p=Caa+bCcc+dCa+cn=(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n! p = C a + b a C c + d c C n a + c = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! n !

Cochran-Mantel-Haenszel(简称CMH检验)

  • 与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析(One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验(Kruskal一Wallis Test)。
  • 对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish’s精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel-Haenszel Test)。
  • 6
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值