为了帮助大家更好地了解因果科学的最新科研进展和资讯,我们因果科学社区团队本周整理了第2期《因果科学周刊》,从 Causality, Causal Inference, Causal AI 三个维度鸟瞰,推送近期因果科学值得关注的论文和资讯信息, 同时我们也将向大家介绍社区正在推进的活动——因果科学与Casual AI读书会第6期中的主要报告内容、观点。
本期作者:况琨,龚鹤扬,陈晗曦,陈天豪,张卓婧,杨雅程
本期周报中的论文推荐,将围绕因果科学领域的“混淆偏差”问题展开,关于它的解释,大家可以先看下面这个例子(熟悉的朋友也可以忽略这部分内容,直接阅读下面的“论文推荐”)。
锻炼能否降低胆固醇呢?如下图1,从每个年龄层来看可以降低,但是如果不分层则会提高胆固醇。
图1: 锻炼是否有利于健康?
这个问题便涉及混淆偏差,回答它仅仅靠数据不够,需要因果建模,转化本期周刊关注的因果问题:在拥有治疗变量 T,协变量 X 和结果变量 Y 的观测数据下的因果效应估计。
图2:因果之梯和因果推理引擎
推理引擎中,该问题属于因果之梯干预层的 Query,而 Data 是观测数据,Asumptions 则经常用潜结果框架(Potential Outcome) 来描述。
关于该因果问题如何回答,也就是去混淆偏差,浙江大学助理教授况琨向大家推荐了几篇论文,我们根据“基于匹配方法”、“倾向评分方法”和“直接均衡方法”三个类别分别选择两篇论文进行了整理和解读。
1. 论文推荐
前两篇论文是基于匹配的方法(Matching based method),该方法基本思想是对比相似个体用药和不用药产生的效果差异。中间两篇是以倾向评分为工具,给定倾向评分则类似于随机化实验,而最后两篇是通过直接加权创造一个新的总体,使得混淆变量和治疗变量独立的方法。
1.1 基于匹配的方法(Matching based method) 一个前沿理论框架
Kallus, N. 2017. A Framework for Optimal Matching for Causal Inference. In Artificial Intelligence and Statistics, 372–381.
论文标题:因果推断的最优匹配框架框架
摘要:本文提出了一种从观测数据中进行因果推断的广义最优匹配方法(generalized optimal matching, GOM),它涵盖了 atching、covariate balancing 以及 doubly robust 等方法。这套框架是基于对最优匹配的一种新的泛函分析的推广提出的,它产生了一类 GOM 的方法,本文提供了一套统一的理论框架来对它们进行可解性和一致性分析。许多已有的方法都可以被纳入 GOM 的框架,利用GOM视角的解释,可以将它们拓展成一种最优且自动的方差与性能之间的平衡策略。Kernel optimal matching (KOM) 作为GOM的一类子类,理论和经验结论表明,可以将许多方法的优点汇集在这一类方法中。KOM可以转化为求解线性约束的凸二次优化问题,在继承了可解释性与 model-free 的匹配一致性同时,还实现了在特定回归问题下的、减少 bias 以及和 doubly robust 方法相当的鲁棒性。在有限重叠(limited overlap)的设定下,KOM是一种对于部分识别和鲁棒覆盖问题的可移植的区间估计方法。文章在生成数据和真实数据下验证了这点。
Kallus, N. 2019. Generalized optimal matching methods for causal inference. The Journal of Machine Learning Research (forthcoming)
论文标题:因果推断的广义最优匹配方法