常见的变量间相关系数简介
首先简介常见的用于描述变量间相关性的系数,包括Pearson、Spearman、Kendall、Polychoric、Tetrachoric、Polyserial、(Point-)Biserial等。
Pearson相关(连续变量,数值相关)
Pearson相关系数(皮尔森相关)是使用最广泛的相关性统计量,用于测量两组连续变量之间的线性关联程度。
Pearson相关系数计算如下:
rxy,变量x和y的Pearson相关系数;
n,观测对象的数量;
xi,x的第i个观测值;
yi,y的第i个观测值。
Pearson相关系数应用于连续变量,假定两组变量均为正态分布、存在线性关系且等方差。线性关系假设两个变量之间是线性响应的,等方差假设数据在回归线上均匀分布。
Spearman秩相关(连续变量,秩相关)
Spearman秩相关系数(斯皮尔曼等级相关)是一种非参数统计量,其值与两组相关变量的具体值无关,而仅仅与其值之间的大小关系有关。Spearman秩相关依据两列成对等级的各对等级数之差进行计算,所以又称为“等级差数法”。当变量在至少是有序的尺度上测量时,它是合适的相关分析方法。
Spearman秩相关系数计算如下:
ρ,Spearman秩相关系数;
di,对应变量的秩之差,即两个变量分别排序后成对的变量位置(等级)差;
n,观测对象的数量。
Spearman秩相关同样应用于连续变量,与Pearson相关相比Spearman秩相关不要求变量的正态性和等方差假设,且对异常值的敏感度较低(该方法基于变量的排序,因此异常值的秩次通常不会有明显变化),因此适用范围通常更广。但方法较为保守,统计效能较Pearson相关系数低,容易忽略一些不太强的线性关系。
此外,Spearman秩相关要求数据必须至少是有序的,一个变量的得分必须与另一个变量单调相关(monotonically related)。
Kendall相关(分类变量,秩相关)
Kendall 相关系数则用于计算分类变量间的秩相关,用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。
考虑两组变量,x和y,它们各自的观测值数量均为n,则x与y观测值可能配对的总数为n(n-1)/ 2。由于x和y为分类变量,需要首先根据类别表示的重要度人工赋值。随后考察x和y的关系对,如果xii且