因果分析系列6--相关,回归与因果
相关,回归和因果这些是统计和机器学习中经常提到的一些术语,它们均可通过观测数据定义定义不同变量之间的基本关系。这三个术语在定义上是完全不同的,但现实中相关和因果经常被混淆使用,回归和相关也常被严重曲解。当这些术语在一个熟悉的相似空间出现时,经常令人产生困惑。前面第一节提到了相关与因果,第五节从偏差角度侧面提到了因果与回归
1.相关与因果
相关性和因果性之间的联系,从统计学教材到大数据著作,都有着广泛的探讨,甚至争议不断。迈尔舍恩伯格在《大数据时代》里说,“要相关,不要因果”,在大数据时代,有相关,就够了。而周涛则在《为数据而生》一书中说,放弃对因果关系的追寻,就是人类的自我堕落,相关性分析是寻找因果关系的利器,能够为因果关系的发现提供一点思路。但两个变量之间存在相关关系,不一定说明两者之间存在着因果关系。因果关系,是指一个变量的存在一定会导致另一个变量的产生。而相关性是统计学上的一个概念,是指一个变量变化的同时,另一个因素也会伴随发生变化,但不能确定一个变