【专栏:前沿进展】因果推断是当下人工智能、机器学习领域中的热门话题之一。在 11 月 26 日的青源 Talk 中,北京大学助理教授、青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝尔经济学奖」的报告。在本次报告中,苗旺老师首先介绍了 1989、2000、2021 三次诺贝尔经济学奖的背景,这三次诺奖得主的工作都与因果推理有着密切的关联。接着,苗旺老师回顾了统计学家对因果推理研究的贡献。在报告的第三部分中,苗旺老师讨论了以「混杂因素调整」为代表的观察性数据因果推断研究的最新进展。最后,苗旺老师展望了因果推断未来的发展方向。
本文整理自青源 Talk 第 8 期,视频回放链接:https://hub.baai.ac.cn/live/?room_id=189
主讲:苗旺
整理:熊宇轩
审校:李梦佳
01
1989、2000、2021 三次诺贝尔经济学奖
2021年诺贝尔经济学奖授予了 Card、Angrist、Imbens 三位经济学家,以表彰他们在经济学的实证研究和因果推断方法方面的贡献。其中,Card 因其在劳动经济学(经济学的分支之一,主要讨论人的收入与劳动力市场的供给需求等问题)的实证研究中做出的重要的贡献而获奖。Angrist 和 Imbens 因其在基于因果关系分析的经济学研究方法上做出的重要贡献获奖。上述三位获奖人都在使用观察性数据回答因果问题的方面做出了突出贡献。我们认为,探索事物之间的因果关系和因果作用是很多科学研究的重要目的。
举例而言,针对新冠病毒的传播,我们关心应该通过怎样的措施能够阻断或者延缓病毒的传播,这是一个因果问题。在劳动经济学领域中,有三个著名的百年难题:
(1)移民会对当地居民的就业和收入有何影响?
(2)设定最低工资标准,会不会造成更多人失业?
(3)对教育的投入能够对收入有何影响?
02
观察性研究
在人类文明过去的几千年中,哲学家和思想家也一直关注因果问题,有很多创造性的深刻想法。科学家们则进一步在实践中进行因果推断,发现因果关系。「观察性研究」是现代推断因果作用的主要数据来源。不同于「试验性研究」,我们在观察性研究中无法根据人的意志干预试验,无法采取有控制的实验,无法随机分配处理(treatment),只能根据经验观察推断因果作用。
如上图所示,观察性研究往往涉及两个具有挑战性的问题:
(1)混杂因素(内生性):忽略某些同时影响处理和结果的背景因素导致因果推断的偏差和决策错误,甚至造成悖论
(2)选择偏差/缺失数据:观测数据不能代表我们关心的总体情况。
Simpson 悖论——混杂因素的作用
1975 年,统计学家 Bickel 在《Science》期刊上发表的论文讨论了 1973 年伯克利研究生入学考试中是否存在性别歧视。从录取的整体情况来看,男生、女生的录取率分别为 44%、35%;而如果分专业来看,则每个专业录取男生的比例都要低于或接近于女生的录取率。出现这种矛盾的情况是因为我们忽略了混杂因素,即男生普遍选择较容易录取的专业。
Berkson 悖论——选择偏差的作用