MIT课程笔记①丨因果关系定义及潜在结果分析框架

本文深入探讨了因果关系的本质,介绍了潜在结果分析框架和个体处理稳定性假设(SUTVA)。通过实例解释了因果关系的定义,强调了因果分析在社会科学中的挑战,如Yule-Simpson's Paradox,并讨论了统计学在因果推断中的角色。文章指出,在大数据时代,理解因果关系的重要性日益增强。
摘要由CSDN通过智能技术生成

本文在MIT在线课程《3.Data Analysis for Social Scientists》中Causality(因果关系)部分课程的课件基础上,补充了相关信息、增加了个人理解,详细介绍了因果关系的本质及其实践。

本篇是四篇系列文章的第一篇,主要解读因果关系定义与潜在结果分析框架。

什么是因果关系

我们经常做出的因果陈述(Causal Statements),比如:

▫ 因为她吃了药,所以她头疼好多了

▫ 因为她上了MIT,所以她找到了好工作

▫ 因为她是非裔美国人,所以她没有获得面试机会

这些因果陈述到底想表达什么意思呢?这些陈述中暗含着一个反事实(counterfactual)的世界(类似平行宇宙的想法)。不同的行为发生了,对应上面三个例子:

▫ (反事实)她没有吃药

▫ (反事实)她没有上MIT,她可能做了其它事情(可做了什么在陈述中并没有明确指出)

▫ (反事实)这里意思不完全清楚,是改变的她的种族?还是改变人们在做聘用决定时关于种族的看法?

总体来说,当我们思考因果关系时,我们考虑的是操作(干预)一个“因”的可能效果,假如我们干预或不干预这个“因”,然后什么会发生。

因果关系可以被证明吗?

在经济和社会科学领域,许多我们想回答的问题是因果问题:移民是否降低了本地工人的工资?贸易是否增加了不平等?在美国和墨西哥之间建立隔离墙是否能阻止移民?所以在社会科学领域的许多数据科学目标是回答“因”与“果”的问题。

但是,针对一些重要但非因果问题时,因果分析没什么用。例如,我们可能感兴趣识别在学校儿童存在危险的早期预兆信号,这样我们可以集中努力解决它们。谷歌会希望基于人们的搜索模式预测他们对什么东西感兴趣,从而向他们提供他们更可能感兴趣的广告。此时更关注的是相关关系。

统计学分析因果关系使用了因果推断(Causal Inference),提到推断就涉及证明问题,有学者认为统计学不能被“证明”因果,只有“相关”是可以被证明。

有一个很有名的例子,叫做 Yule-Simpson’s Paradox。有文献称,Karl Pearson 很早就发现了这个悖论——也许这正是他反对统计因果推断的原因。此悖论表明,存在如下的可能性:X和Y在边缘上正相关(处理效果为正),但是给定另外一个变量Z后,在Z的每一个取值上,X和Y都负相关。下表是一个数值的例子,处理对整个人群有 “正作用”,奇怪的是,处理对男性有 “负作用”,对女性也有 “负作用”。一个处理对男性和女性都有 “负作用”,但是他对整个人群却有 “正作用”:悖论产生了!

上面的例子是人工构造的,在现实中,也存在不少的实例正是 Yule-Simpson’s Paradox。比如,UC Berkeley 的著名统计学家 Peter Bickel 教授 1975 年在 Science 上发表文章,报告了 Berkeley 研究生院男女录取率的差异。他发现,总体上,男性的录取率高于女性,然而按照专业分层后,女性的录取率却高于男性(Bickel 等 1975)。

在统计上,这具有重要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值