相关系数:用以反映变量之间相关关系密切程度的统计指标
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
1.Pearson(皮尔逊)相关系数 前提:线性
皮尔逊相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用Pearson来衡量是不严谨的。
注意:
1.独立一定不相关,而在一般情况下不相关不应独立,只有当样本服从正态分布时不相关与独立才等价;2.同其它与平均值相关的统计量一样,容易受异常值的影响,检验前需要做好预处理
2.Spearman Rank(斯皮尔曼等级)相关系数 前提:单调
斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。其本质上是对原有数据自变量、因变量分别进行排行后的次序之间的皮尔逊相关系数(排行时序号相同则取平均)
如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1
注意:
能够适用皮尔逊相关的场合当然是优先使用皮尔逊相关,因为它尽可能地保留了样本信息,但是在有些场合,皮尔逊相关所需要的前提假设不能得到满足,这是就可以考虑使用斯皮尔曼相关(泛用性更强大),比如说以下一些情况下:
1.如果你的数据展现的是非线性关系,或者不是正态分布的。
2.如果至少有一方数据是序数类型(ordinal)而非数值类型。比如说,如果数据的赋值为"第一、第二、第三、... "你就是在处理序数类型数据。更具具体一点的例子就是,比如说你考察两个球队在历年联赛中的战绩之间的关系,那么你得到的数据可能是这样的:A队在2010~2020年间的联赛排名为{1,2,4,5,...,2}, B队在2010~2020年间的联赛排名为{2,1,3,6,...,4}。这两个数据就是序数类型的数据,考察它们的相关性你使用皮尔逊相关系数就不妥当
3.如果数据中有明显的异常值(outliers)。与皮尔逊相关不同,斯皮尔曼相关对于异常值不太敏感,因为它基于排序位次进行计算,实际数值之间的差异大小对于计算结果没有直接影响
3.Kendall Rank(肯德尔等级)相关系数 前提:单调
与斯皮尔曼秩相关相似的是,肯德尔相关也是一种秩相关系数,是基于数据对象的秩(rank)来进行两个(随机变量)之间的相关关系(强弱和方向)的评估。所分析的目标对象应该是一种有序的类别变量,比如名次、年龄段、肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)等。
不同的是,斯皮尔曼相关是基于秩差(比如说,小明在班级中的历史成绩排名为10,英语成绩排名为4,那么在这个班级的学生的历史成绩和英语成绩的斯皮尔曼相关分析中,小明的成绩的贡献就是(10-4=6) )来进行相关关系的评估;而肯德尔相关则是基于样本数据对之间的关系来进行相关系数的强弱的分析,数据对可以分为一致对(Concordant)和分歧对(Discordant)。
一致对(Concordant)是指两个变量的这一对样本值取值的相对关系一致,可以理解为与有相同的符号;分歧对是指这一对样本值取值的相对关系不一致。
当数据样本比较小,而且存在并列排位(tied ranks,比如说小明的历史成绩和英语成绩排名都是第8名)时,肯德尔相关系数是比斯皮尔曼相关系数更合适的一个相关性衡量指标。
注意:
- Kendall 秩相关系数可以用于度量有序变量间相关性,只要求变量取值之间可比,对变量的分布和数据的距离不作假设;
- 能用 Pearson 相关系数和 Spearman 秩相关系数的地方都能用 Kendall 秩相关系数,但是 Spearman 和 Kendall 秩相关系数要对数据排序,复杂度远高于 Pearson 相关系数,因此能用 Pearson 相关系数的时候优先考虑 Pearson 相关系数;
- Kendall 秩相关系数依赖一致对和分歧对的计数,这里需要注意数据中是否有重复取值的情况,来选择使用 Tau-a 还是 Tau-b 进行计算
4.Sourav Chatterjee提出的一种新的相关系数 可以检验非单调关系
对变量(X,Y)按照X的大小进行排序,取Xi中的i记为ri,利用ri可以计算得到新的相关系数