多元数据的相关性检验——基于R


对于多元数据,讨论变量间是否具有相关关系是很重要的,这里介绍三种相关检验——
Pearson相关检验,Spearman相关检验和Kendall相关检验,第一个检验是针对 正态分布数据而言的,而后面两种检验属于 秩检验

检验方法:

1.Pearson相关检验

设二元总体 ( X , Y ) (X,Y) (X,Y)的分布函数为 F ( X , Y ) 的方差分别为 v a r ( X ) 和 v a r ( Y ) , 总体协方差为 c o v ( X , Y ) 总体相关系数的定义为 : F(X,Y)的方差分别为var(X)和var(Y),总体协方差为cov(X,Y)\\ 总体相关系数的定义为: F(X,Y)的方差分别为var(X)var(Y),总体协方差为covX,Y总体相关系数的定义为:
ρ X Y = c o v ( X Y ) v a r ( X ) . v a r ( Y ) \rho_{XY}=\frac{cov(XY)}{\sqrt{var(X)}.\sqrt{var(Y)}} ρXY=var(X) .var(Y) cov(XY)
( X 1 , Y 1 ) , ( X 2 , Y 2 ) , . . . ( X n , Y n ) 为选自每个二元总体( X , Y )的独立样本, 可以计算样本的相关系数 (X_1,Y_1),(X_2,Y_2),...(X_n,Y_n)为选自每个二元总体(X,Y)的独立样本,\\可以计算样本的相关系数 (X1,Y1),(X2,Y2),...(Xn,Yn)为选自每个二元总体(X,Y)的独立样本,可以计算样本的相关系数
r X Y = S X Y 2 S X 2 . S Y 2 r_{XY}=\frac{S_{XY}^{2}}{\sqrt{S_{X}^{2}}.\sqrt{S_{Y}^{2}}} rXY=SX2 .SY2 SXY2
其中 S X 2 和 S Y 2 分别为样本 X 和样本 Y 的方差, S X Y 2 为样本 X Y 的协方差 , 在通常情况下,由样本计算的 \text{其中}S_{X}^{2}\text{和}S_{Y}^{2}\text{分别为样本}X\text{和样本}Y\text{的方差,}S_{XY}^{2}\text{为样本}XY\text{的协方差}\\,在通常情况下,由样本计算的 其中SX2SY2分别为样本X和样本Y的方差,SXY2为样本XY的协方差,在通常情况下,由样本计算的r_{XY}不为0,即使在随机变量X,Y独立的情况下。因此当 ρ x y = 0 时,用 r x y 去度量 X , Y 的关联度没有实际意义,所以需要做 假设检验: \rho_{xy}=0时,用r_{xy}去度量X,Y的关联度没有实际意义,所以需要做\\假设检验: ρxy=0时,用rxy去度量X,Y的关联度没有实际意义,所以需要做假设检验:
H 0 : ρ X Y = 0 H 1 : ρ X Y ≠ 0 H_0\text{:}\rho _{XY}=0 H_1\text{:}\rho _{XY}\ne 0 H0ρXY=0H1ρXY=0
可以证明,当 ( X , Y ) (X,Y) (X,Y)为二元正态总体时,且当 H 0 H_0 H0为真时,统计量
t = r X Y n − 2 1 − r X Y 2 t=\frac{r_{XY}\sqrt{n-2}}{1-r_{XY}^{2}} t=1rXY2rXYn2
服从自由度为n-2的t分布
  利用统计量t服从自由度为n-2的t分布的性质,可以对数据 X , Y X,Y X,Y的相关性进行检验。由于相关系数 r X Y r_{XY} rXY被称为Pearson(皮尔森)相关系数,因此检验方法也称为Pearson相关检验。

2.Spearman相关检验

  设 ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , . . . ( X n , Y n ) 为选自每个二元总体( X , Y )的独立样本, 要检验变量 X , Y 是否相关,通常以“ X 与 Y 相互独立(不相关)”为原假设 “ X 与 Y ”相关为备择假设 (X_1,Y_1),(X_2,Y_2),...(X_n,Y_n)为选自每个二元总体(X,Y)的独立样本,\\要检验变量X,Y是否相关,通常以“X与Y相互独立(不相关)”为原假设\\“X与Y”相关为备择假设 (X1,Y1),(X2,Y2),...(Xn,Yn)为选自每个二元总体(X,Y)的独立样本,要检验变量X,Y是否相关,通常以XY相互独立(不相关)为原假设XY相关为备择假设
   设 r 1 , r 2 . . . , r n 为由 X 1 , X 2 , . . . X n 产生的秩统计量 , R 1 , R 2 , . . R n 为由 Y 1 , Y 2 , . . . Y n 产生的秩统计量,则有 \text{设}r_1,r_2...,r_n\text{为由}X_1,X_2,...X_n\text{产生的秩统计量},R_1,R_2,..R_n\\\text{为由}Y_1,Y_2,...Y_n\text{产生的秩统计量,则有} r1,r2...,rn为由X1,X2,...Xn产生的秩统计量,R1,R2,..Rn为由Y1,Y2,...Yn产生的秩统计量,则有
r ˉ = 1 n ∑ i = 1 n r i = n + 1 2 = R ˉ = 1 n ∑ i = 1 n R i 1 n ∑ i = 1 n ( r i − r ˉ ) 2 = n 2 − 1 12 = 1 n ∑ i = 1 n ( R i − R ˉ ) 2 称 r s = [ 1 n ∑ i = 1 n r i R i − ( n + 1 2 ) 2 ] / ( n 2 − 1 12 ) \bar{r}=\frac{1}{n}\sum_{i=1}^n{r_i}=\frac{n+1}{2}=\bar{R}=\frac{1}{n}\sum_{i=1}^n{R_i} \\ \frac{1}{n}\sum_{i=1}^n{\left( r_i-\bar{r} \right) ^2=\frac{n^2-1}{12}=\frac{1}{n}}\sum_{i=1}^n{\left( R_i-\bar{R} \right) ^2} \\ \color{blue}{称} \\ r_s=\left[ \frac{1}{n}\sum_{i=1}^n{r_iR_i}-\left( \frac{n+1}{2} \right) ^2 \right] /\left( \frac{n^2-1}{12} \right) rˉ=n1i=1nri=2n+1=Rˉ=n1i=1nRin1i=1n(rirˉ)2=12n21=n1i=1n(RiRˉ)2rs=[n1i=1nriRi(2n+1)2]/(12n21)
为Spearman(斯皮尔曼)秩相关系数
   当 X 与 Y 相互独立时 X与Y相互独立时 XY相互独立时 ( r 1 , r 2 . . . , r n ) (r_1,r_2...,r_n) r1,r2...,rn) ( R 1 , R 2 , . . R n ) \left( R_1,R_2,..R_n \right) (R1,R2,..Rn)是相互独立的,此时, E ( r s ) = 0. 当 X 与 Y 正相关时, r s 倾向于正值,当 X 与 Y 负相关时 , r s 倾向于负值,这样就可以用 r s 的分布来检验 X 与 Y 是否独立 E(r_s)=0.当X与Y正相关时,r_s倾向于正值,当X与Y负相关时\\,r_s倾向于负值,这样就可以用r_s的分布来检验X与Y是否独立 E(rs)=0.XY正相关时,rs倾向于正值,当XY负相关时rs倾向于负值,这样就可以用rs的分布来检验XY是否独立
   可以证明:当 n 较大时, n − 1 r s 近似分布于 N ( 0 , 1 ) , 由此可以构造出拒绝域和响应的 P 值, 当 p 值小于某一显著性水平 α ( 如 0.05 ) 时,则拒绝原假设 可以证明:当n较大时,\sqrt{n-1}r_s近似分布于N(0,1),由此可以构造出拒绝域和响应的P值,\\当p值小于某一显著性水平\alpha(如0.05)时,则拒绝原假设 可以证明:当n较大时,n1 rs近似分布于N(0,1),由此可以构造出拒绝域和响应的P值,p值小于某一显著性水平α(0.05)时,则拒绝原假设

3.Kendall相关检验

在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。

参考链接
假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用Xi、Yi表示。X与Y中的对应元素组成一个元素对集合XY,其包含的元素为(Xi, Yi)(1<=i<=N)。当集合XY中任意两个元素(Xi, Yi)与(Xj, Yj)的排行相同时(也就是说当出现情况1或2时;情况1:Xi>Xj且Yi>Yj,情况2:Xi<Xj且Yi<Yj),这两个元素就被认为是一致的。当出现情况3或4时(情况3:Xi>Xj且Yi<Yj,情况4:Xi<Xj且Yi>Yj),这两个元素被认为是不一致的。当出现情况5或6时(情况5:Xi=Xj,情况6:Yi=Yj),这两个元素既不是一致的也不是不一致的。

这里有三个公式计算肯德尔相关系数的值:

公式一:
在这里插入图片描述

其中C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。

注意:这一公式仅适用于集合X与Y中均不存在相同元素的情况(集合中各个元素唯一)。

公式二:
在这里插入图片描述

注意:这一公式适用于集合X或Y中存在相同元素的情况(当然,如果X或Y中均不存在相同的元素时,公式二便等同于公式一)。
在这里插入图片描述

其中C、D与公式一中相同;

N1、N2分别是针对集合X、Y计算的,现在以计算N1为例(N2的计算可以类推,在集合Y的基础上计算而得):

X集合中所有重复元素个数:将X中的相同元素分别组合成小集合,s表示集合X中拥有的小集合数(例如X包含元素:1 2 3 4 3 3 2,那么这里得到的s则为2,因为只有2、3有相同元素),Ui表示第i个小集合所包含的元素数。

公式三:
在这里插入图片描述

注意:这一公式中没有再考虑集合X、或Y中存在相同元素给最后的统计值带来的影响。公式三的这一计算形式仅适用于用表格表示的随机变量X、Y之间相关系数的计算(下面将会介绍)。

参数M稍后会做介绍。

通常人们会将两个随机变量的取值制作成一个表格,例如有10个样本,对每个样本进行两项指标测试X、Y(指标X、Y的取值均为1到3)。根据样本的X、Y指标取值,得到以下二维表格(表1):

由表1可以得到X及Y的可以以集合的形式表示为:

X={1, 1, 2, 2, 2, 2, 2, 3, 3, 3};

Y={1, 2, 1, 1, 2, 2, 3, 2, 3, 3};

得到X、Y的集合形式后就可以使用以上的公式一或公式二计算X、Y的肯德尔相关系数了(注意公式一、二的适用条件)。

这里需要注意的是:公式二也可以用来计算表格形式表示的二维变量的肯德尔相关系数,不过它一般用来计算由正方形表格表示的二维变量的肯德尔相关系数,公式三则只是用来计算由长方形表格表示的二维变量的Kendall相关系数。这里给出公式三中字母M的含义,M表示长方形表格中行数与列数中较小的一个。表1的行数及列数均为三。

cor.test函数

在R中,用cor.test()函数作相关检验,其使用格式为:

cor.test(x, y,
         alternative = c("two.sided", "less", "greater"),
         method = c("pearson", "kendall", "spearman"),
         exact = NULL, conf.level = 0.95, continuity = FALSE, ...)

参数x和y分别为样本构成的数值向量,且有相同的维数。

  • alternative为备择假设选项,取“two.sided”(默认值)表示双侧检验(相关),取“less”和“right”分别代表单侧检验的负相关和正相关
  • method 为相关检验的方法即"pearson", “kendall”, “spearman”,默认是pearson
  • exact为逻辑向量,表示是否精确计算P值
  • continuity为逻辑向量,表示在秩检验中是否使用连续性修正
    另外一种使用方法是公式形式,其使用格式为:
cor.test(formula, data, subset, na.action, ...)

用于两总体样本的检验

案例分析:

例1:一项有六个人参加表演的竞赛,有两人进行评定,评定结果显示如下表所示,试检验这两个评定员对等级评定有无相关关系。

甲的评分123456
已的评分654321

解:
由于评定成绩是打分的等级,所以无法用Pearson相关检验,这里选择Spearman秩相关检验方法来完成检验工作

x <- c(1:6)
y <- c(6:1)
cor.test(x,y,method="s")

在这里插入图片描述
可以看到 P 值 ( = 0.002778 ) < 0.05 , 因此拒绝原假设,认为变量 X 与 Y 相关,另外还可以看出 ρ = − 1 , 即这两个变量时完全负相关 P值(=0.002778)<0.05,因此拒绝原假设,认为变量X与Y相关,另外还可以看出\rho=-1,即这两个变量时完全负相关 P(=0.002778)<0.05,因此拒绝原假设,认为变量XY相关,另外还可以看出ρ=1,即这两个变量时完全负相关
例2某幼儿园对9对双胞胎的智力进行检验,并按照百分制打分,资料如下所示
试用Kendall的相关检验方法检验两队双胞胎的智力是否相关

先出生的儿童867768917071828763
后出生的儿童887664966580817260
解:由于数据不一定满足正态分布的条件,所以指定Kendall秩相关检验方法
x <- c(86,77,68,91,70,71,85,87,63)
y <- c(88,76,64,96,65,80,81,72,60)
cor.test(x,y,method = "kendall")

在这里插入图片描述
可以看到 P 值 ( = 0.005886 ) < 0.05 , 因此拒绝原假设,认为变量 X 与 Y 相关,另外还可以看出 K e n d a l l 相关系数为 0.7722 , 即这两个变量时正相关 P值(=0.005886)<0.05,因此拒绝原假设,认为变量X与Y相关,另外还可以看出\\Kendall相关系数为0.7722,即这两个变量时正相关 P(=0.005886)<0.05,因此拒绝原假设,认为变量XY相关,另外还可以看出Kendall相关系数为0.7722,即这两个变量时正相关

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值