1. 相关性度量
为了定量的描述线性相关性,统计学奠基人K. Pearson提出了Pearson相关系数、心理学家CE. Spearman提出了Spearman等级相关系数、统计学家M. Kendall提出了Kendall秩相关系数。这三种相关系数最具有代表性、应用也最广泛,它们既有联系又有不同,分别有不同的适用场景。
Pearson相关系数
Pearson相关系数 (Pearson correlation coefficient)用于度量两个变量X、Y的相关性(线性相关),定义如下:
\[r = \frac{\sum_{i=1}^n (X_i - \overline{X}) (Y_i - \overline{Y})}{\sqrt{\sum_{i}(X_i - \overline{X})^2} \sqrt{\sum_{i}(Y_i - \overline{Y})^2}} \]
容易证明Pearson相关系数的取值范围为[-1, 1]。
- 若为1意味着X和Y的数据点基本落在一条直线上,且Y随X的增加而增加,换言之X和Y可以由直线方程来描述(线性正相关);
- 若为-1则表示X和Y线性负相关,Y随X的增加而减少;
- 若为0,则说明二者没有线性关系。
下图给出了当Pearson相关系数为不同值时X和Y的散点图(以下三张图片均来自于Wikipedia):
Pearso