相关性是两个变量之间关联的度量。
当两个变量都有良好理解的高斯分布时,很容易计算和解释。而当我们不知道变量的分布时,我们必须使用非参数的秩相关(Rank Correlation,或称为等级相关)方法。
在本教程中,你将了解用于量化具有非高斯分布变量之间关联的秩相关方法。
完成本教程后,你会学到:
秩相关方法的工作原理以及方法是否适用。
如何在Python中计算和解释Spearman的秩相关系数。
如何在Python中计算和解释Kendall的秩相关系数。
本教程分为4个部分; 他们是:
秩相关
测试数据集
Spearman秩相关
Kendall秩相关
秩相关
相关性是指两个变量的观测值之间的关联。
变量可能有正相关,即当一个变量的值增加时,另一个变量的值也会增加。也可能有负相关,意味着随着一个变量的值增加,其他变量的值减小。变量也可能是中立的,也就是说变量不相关。
相关性的量化通常为值-1到1之间的度量,即完全负相关和完全正相关。计算出的相关结果被称为“ 相关系数”。然后可以解释该相关系数以描述度量。
参阅下表:
可以使用诸如Pearson相关这样的标准方法来计算每个具有高斯分布的两个变量之间的相关性。这份方法不能用于没有高斯分布的数据。而必须使用秩相关方法。
秩相关是指使用变量之间序数的关联(而不是特定值)来量化变量之间的关联的方法。有序数据是具有标签值并具有顺序或秩相关的数据;例如:’ 低 ‘,’ 中 ‘和’ 高 ‘。
可以为实值变量计算秩相关。这是通过首先将每个变量的值转换为等级数据来完成的。值在这里被排序并指定整数排名值。然后可以计算秩相关系数以量化两个排序变量之间的关联。
由于没有假设值的分布,所以秩相关方法被称为自由分布相关(distribution-free correlation)或非参数相关(nonparametric correlation)。有趣的是,秩相关的度量通常被用作其他统计假设检验的基础,例如确定两个样本是否可能来自相同(或不同)的群体分布。
秩相关方法通常以研究人员或开发该方法的研究人员的名字命名。如下:
Spearman秩相关。
Kendall秩相关。
Goodman和Kru