转载:https://blog.csdn.net/witforeveryang/article/details/42585791
关于相关系数的一些理解误区,这篇文章 讲的很好,正如这个网站的名字mathsisfun一样,full of cases, pics and fun :)
我想补充我认为非常重要的几点:
一般我们讲的相关系数,其实叫 皮尔逊相关系数,学名 皮尔逊积差系数(Pearson's product moment coefficient)
In statistics, the Pearson product-moment correlation coefficient is a measure of the linear correlation (dependence) between two variables X and Y, giving a value between +1 and −1 inclusive, where 1 is total positive correlation, 0 is no correlation, and −1 is total negative correlation. It is widely used in the sciences as a measure of the degree of linear dependence between two variables.
--from wiki
计算公式如下:
注意红色标注的"linear", 我想强调的是:
这里的相关系数只是用来衡量两个变量线性相关程度的指标;
也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何
反之不成立:
- 比如你先算出相关系数=0.9,就下结论说两个变量线性相关是不对的,甚至说两个变量相关(有某种更复杂的关系)也是不对的(见:case 1)
- 另外,如果算出来相关系数=0,下结论说两个变量不是线性相关是ok的,但说他们完全不相关就得小心了,很有可能不对(见:case 2)。
case 1:
Four sets of data with the same correlation of 0.816
The image on the right shows scatterplots of Anscombe's quartet, a set of four different pairs of variables created by Francis Anscombe.
--from wiki
- 如图(右上)所示,非线性相关也会导致线性相关系数很大;
- 好吧,你退一步,转而问:如果两个变量的相关系数很大(0.816),那能不能说两者相关呢? 答案还是不能,为什么? 因为如图(右下)所示,很可能是一个离群点(outlier)导致了相关系数变得很大。
- 这也不能那也不能,那怎么办?(你一定要画出图来看才行,后面会深入解释)
case 2:
上图的相关系数计算结果为0,但你能说冰激凌的销量和温度不相关吗?
所以, pearson correlation coefficient = 0只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
下面是wiki对于误解的进一步解释
“The Pearson correlation coefficient indicates the strength of a linear relationship between two variables, but its value generally does not completely characterize their relationship.”
“皮尔逊相关系数 其实是衡量 两个变量线性相关程度大小的指标,但它的值的大小并不能完全地反映两个变量的真实关系。”
如果我再罗嗦一遍你也许会就更明白了:
如果两个变量本身就是线性的关系,那么皮尔逊相关系数ok没问题,绝对值大的就是相关性强,小的就是相关性弱;
但在你
不知道
这两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量
线性相关
,甚至不能说他们
相关
,你一定要
画出图来看
才行,这就是为什么我们说
眼见为实
和
数据可视化
的重要性。
大概就酱紫,你现在是不是觉得皮尔逊相关系数特没用?!(皮尔逊相关系数说:起码比某些人有用得多,哈哈)
另外,需要留意的是:
1. 只有当两个变量的标准差都不为零,相关系数才有意义。
2. 在实际应用中,比如协同过滤中,如果一个电影只有一个评分,相关系数也没有意义。
最后,还需要特别留意的是:
即使两个变量相关,也不代表两者有因果关系,应该牢记
【相关非因果】
,因为:
1. 一种情况有可能是 A导致了B和C, 你计算发现B和C相关,认为 B导致了C, 其实不是;
2. 还有一种情况是 B和C本身毫无关系,就像文中举的“学课外课和生病的关系”的例子,但是统计发现相关系数就是很大,
这有多种可能,有可能是一个你还不知道的原因A导致B和C(如果真发现A的话,将是个很好的知识发现), 也有可能本身就是统计出错了,所以具体问题要具体分析。
further reading:
1. 开篇那篇很有趣的文章 http://www.mathsisfun.com/data/correlation.html
2. 关于 correlation coefficient 与 linear regression的关系 http://mathworld.wolfram.com/CorrelationCoefficient.html
3. 关于相关性大小的解释 http://mathbits.com/MathBits/TISection/Statistics2/correlation.htm