统计学中三大相关系数

三大相关系数分别是pearson[皮尔森]、spearman[斯皮尔曼] 和 kendall[肯德尔]
反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

1.Pearson

在这里插入图片描述
两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。

Tips:
方差是表示一个变量的波动情况,方差越小表示数据越集中,越大表示数据越离散;
标准差:等于(或近似等于)方差的开根号;
协方差:用于描述两个变量间的线性关系。两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近.

Pearson对数据有比较高的要求:
a. 实验数据通常假设是成对的来自于正态分布的总体。在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的.

b.实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大.

2.Spearman

也叫斯皮尔曼 秩 相关系数。“秩”,可以理解成就是一种顺序或者排序,根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制.
在这里插入图片描述
n表示数据的数量,di 表示两个数据次序的差值:
在这里插入图片描述
例如实验数据如下:
在这里插入图片描述
带入公式,求得斯皮尔曼相关性系数:r = 1-6*(1+1+1+9)/6*35=0.657

3.kendall

由于数据情况不同,求得肯德尔相关性系数的计算公式不一样,一般有3种计算公式,

假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用Xi、Yi表示。元素为(Xi, Yi)(1<=i<=N),
a. 当集合XY中任意两个元素(Xi, Yi)与(Xj, Yj)的排行相同时(情况1:Xi>Xj且Yi>Yj,情况2:Xi<Xj且Yi<Yj),这两个元素就被认为是一致的。
b. 当出现(情况3:Xi>Xj且Yi<Yj,情况4:Xi<Xj且Yi>Yj),这两个元素被认为是不一致的。
c. 当出现(情况5:Xi=Xj,情况6:Yi=Yj),这两个元素既不是一致的也不是不一致的。

C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。

  1. 公式一:仅适用于集合X与Y中均不存在相同元素的情况(集合中各个元素唯一)。在这里插入图片描述

  2. 公式二: 适用于集合X或Y中存在相同元素的情况在这里插入图片描述
    其中在这里插入图片描述
    N1针对集合 X 计算,N2针对集合 Y 计算,将X中的相同元素分别组合成集合,s表示集合X中拥有的集合数(例如X包含元素:1 2 3 4 3 3 2,那么这里得到的s则为2,因为只有2、3有相同元素),Ui表示第i个集合所包含的元素数。

  3. 公式三:仅适用于用表格表示的随机变量X、Y之间相关系数的计算。在这里插入图片描述M表示长方形表格中行数与列数中较小的一个。举个列子:
    X={1, 1, 2, 2, 2, 2, 2, 3, 3, 3};
    Y={1, 2, 1, 1, 2, 2, 3, 2, 3, 3};其中M为3
    在这里插入图片描述

参考内容:

  1. https://mp.weixin.qq.com/s/7mLvwssuR4W1kyaenrL5PA
  2. https://blog.csdn.net/shuangyufrank/article/details/41981951
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值