https://blog.csdn.net/sinat_24143931/article/details/78798630
根据这篇文章的介绍可以知道:
1、person correlation coefficient(皮尔森相关性系数)
就是两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。
它要求数据是连续数据、正态分布且线性关系
2、spearman correlation coefficient(斯皮尔曼相关性系数)
根据秩来计算,没有皮尔森相关性系数对数据那么严格的限制条件,而且,即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小!这个我们可以多用
3、 kendall correlation coefficient(肯德尔相关性系数)
肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。
分类变量可以理解成有类别的变量,可以分为
无序的,比如性别(男、女)、血型(A、B、O、AB);
有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
通常需要求相关性系数的都是有序分类变量。
调用:
Pandas接口:
DataFrame.
corr
(method='pearson', min_periods=1)
method : {‘pearson’, ‘kendall’, ‘spearman’}
- pearson : standard correlation coefficient
- kendall : Kendall Tau correlation coefficient
- spearman : Spearman rank correlation
min_periods : int, optional
Minimum number of observations required per pair of columns to have a valid result. Currently only available for pearson and spearman correlation
补充介绍:https://zhidao.baidu.com/question/942120591632351772.html