相关性不是因果

内容预告

这期开始我们介绍因果推断的一些理论。读者肯定会问:Why I should give it a shit?
简单来说,因果推断是一个使用数据帮助人们做选择的理论。

  • 一个地方政府如何从众多提案中选择最佳政策?
  • 一个电商平台用户,应不应该给他发优惠券?
  • 一个证券公司,应该投资哪些股票?
  • 一个病人应该选择保守治疗还是手术?

当然不是所有的选择问题可以用因果推断来解决,前提是得有数据,此外数据还要满足一些假设。
今天的开场就从一个老生常谈的话题开始:相关与因果之间的关系。

相关性与因果

请观察下面这个关于变量 X X X Y Y Y 的散点图 (scatter plot),不难看出 X X X Y Y Y 呈正相关,也就是说当 X X X 增加时, Y Y Y 也增加。
image.png|400
有个很自然的问题来了:那么 X X X 的增加会不会导致 (cause) Y Y Y 的增加呢?我们用 X → Y X\rightarrow Y XY 表示 X X X 导致 (cause) Y Y Y

似乎是的, X X X 越大 Y Y Y 就越大。这让我们很容易联想到吴恩达教授在他的机器学习课程中用房屋面积预测售价的问题。
image.png|400
但是有不有可能 X X X 是售价, Y Y Y 是房屋面积呢?
image.png|400

这时候,我增加售价,会导致房屋面积增加吗?显然不会,这时候的因果关系是 Y → X Y\rightarrow X YX

再来看一个更有趣的案例:假设我们收集了不同纬度城市的冰淇淋销量与溺水死亡人数的数据。
image.png|400
初看,似乎两者之间存在正相关。但当我们把这些城市根据温度分开,在每个小数据内做相关分析时,就会发现在同样温度的城市中,这两个变量几乎不相关。他们背后有一个共同的导致因素:温度。温度低时,既没有什么人游泳,也没什么人吃冰淇淋;高温时,则两者都增加。
image.png|400
这里的因果关系是 X ← Z → Y X\leftarrow Z \rightarrow Y XZY,其中 Z Z Z 代表 X X X Y Y Y 共同的导致因素。这是著名的辛普森悖论 1 的一个典型案例,其中温度 ( Z Z Z) 被称为混淆变量 (confounder)。

小结

所以你看,当 X X X Y Y Y 相关时,其实至少有这三种情况:

  1. X → Y X\rightarrow Y XY,通过增加房屋面积来增加它的售价。
  2. Y → X Y\rightarrow X YX,增加房屋售价只会导致房子卖不出去,而不会使得它的面积增加。
  3. X ← Z → Y X\leftarrow Z \rightarrow Y XZY,禁止一个城市销售冰淇淋,并不会改变这个城市的溺水死亡人数,反而还可能导致更多人溺水死亡(因为降温的方式减少了一个)。

那么,在实际数据分析中,我们怎么区分这三种情况呢?是不是拿到数据搞一个回归分析就可以了呢?我会在后面的文章中陆续更新因果分析的一些有趣理论,比如因果图模型,潜在结果框架,回归方法,匹配方法等。

希望我能更新下去 ~~ 因为里面的数学部分还是有些难啃,另外我也有点懒,嘿嘿。

不定期更新专业知识和有趣的东西,欢迎反馈、点赞、加星

您的鼓励和支持是我坚持创作的最大动力!ღ( ´・ᴗ・` )

参考


  1. Freedman, D., Pisani, R., & Purves, R. (2007). Statistics ↩︎

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值