有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能不是很深刻,望大家谅解。
1、Pearson相关系数
最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)
(1)两变量呈直线相关关系,如果是曲线相关可能不准确。
(2)极端值会对结果造成较大的影响
(3)两变量符合双变量联合正态分布。
2、Spearman秩相关系数
对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。(适合含有等级
变量或者全部是等级变量的相关性分析)
3、无序分类变量相关性