最近一段时间看了很多博主写的因果推断方面的博客,觉得有必要按照自己的理解整理一下,当作自己的一个总结工作吧。
目录
1. 什么是因果推断
因果推断就是推断X与Y是否存在因果关系。因果关系与相关关系不同,相关关系是X与Y关联的一种浅层关系,比如,通过机器学习拟合x的函数f(x),然后根据预测值f(x)与真实值Y之间的差距对模型参数进行优化。但有一个问题:如果X不是导致Y变化的原因,即便模型可以很好地拟合,但是模型的泛化能力会很好吗?
举一个例子。现在有一堆冰淇淋销量的数据X,游泳死亡人数的数据Y,如何你用机器学习拟合,会发现X与Y存在某种正向的相关的关系,于是你得出结论:冰淇淋卖的越多,游泳死亡人数越多。很扯对不对?这是因为你忽略了“夏天”这个混淆因子。