三大相关系数分别是pearson[皮尔森]、spearman[斯皮尔曼] 和 kendall[肯德尔]
反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
1.Pearson
两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。
Tips:
方差是表示一个变量的波动情况,方差越小表示数据越集中,越大表示数据越离散;
标准差:等于(或近似等于)方差的开根号;
协方差:用于描述两个变量间的线性关系。两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近.
Pearson对数据有比较高的要求:
a. 实验数据通常假设是成对的来自于正态分布的总体。在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的.
b.实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大.
2.Spearman
也叫斯皮尔曼 秩 相关系数。“秩”,可以理解成就是一种顺序或者排序,根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制.
n表示数据的数量,di 表示两个数据次序的差值:
例如实验数据如下:
带入公式,求得斯皮尔曼相关性系数:r = 1-6*(1+1+1+9)/6*35=0.657
3.kendall
由于数据情况不同,求得肯德尔相关性系数的计算公式不一样,一般有3种计算公式,
假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用Xi、Yi表示。元素为(Xi, Yi)(1<=i<=N),
a. 当集合XY中任意两个元素(Xi, Yi)与(Xj, Yj)的排行相同时(情况1:Xi>Xj且Yi>Yj,情况2:Xi<Xj且Yi<Yj),这两个元素就被认为是一致的。
b. 当出现(情况3:Xi>Xj且Yi<Yj,情况4:Xi<Xj且Yi>Yj),这两个元素被认为是不一致的。
c. 当出现(情况5:Xi=Xj,情况6:Yi=Yj),这两个元素既不是一致的也不是不一致的。
C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。
-
公式一:仅适用于集合X与Y中均不存在相同元素的情况(集合中各个元素唯一)。
-
公式二: 适用于集合X或Y中存在相同元素的情况
其中
N1针对集合 X 计算,N2针对集合 Y 计算,将X中的相同元素分别组合成集合,s表示集合X中拥有的集合数(例如X包含元素:1 2 3 4 3 3 2,那么这里得到的s则为2,因为只有2、3有相同元素),Ui表示第i个集合所包含的元素数。 -
公式三:仅适用于用表格表示的随机变量X、Y之间相关系数的计算。M表示长方形表格中行数与列数中较小的一个。举个列子:
X={1, 1, 2, 2, 2, 2, 2, 3, 3, 3};
Y={1, 2, 1, 1, 2, 2, 3, 2, 3, 3};其中M为3
参考内容:
- https://mp.weixin.qq.com/s/7mLvwssuR4W1kyaenrL5PA
- https://blog.csdn.net/shuangyufrank/article/details/41981951