《因果科学周刊》第2期：如何解决混淆偏差？

智源社区

于 2020-11-20 14:26:15 发布

阅读量4k

点赞数 10

文章标签：算法大数据编程语言 python 机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/109882424

版权

《因果科学周刊》第2期聚焦混淆偏差问题，介绍了匹配方法、倾向评分方法和直接均衡方法等因果效应估计策略。文章推荐了多篇相关论文，探讨如何在数据科学中控制混淆变量，提高因果推断的准确性。同时，还分享了因果AI的课程和报告，以及因果迁移学习的最新研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了帮助大家更好地了解因果科学的最新科研进展和资讯，我们因果科学社区团队本周整理了第2期《因果科学周刊》，从 Causality, Causal Inference, Causal AI 三个维度鸟瞰，推送近期因果科学值得关注的论文和资讯信息，同时我们也将向大家介绍社区正在推进的活动——因果科学与Casual AI读书会第6期中的主要报告内容、观点。

本期作者：况琨，龚鹤扬，陈晗曦，陈天豪，张卓婧，杨雅程

本期周报中的论文推荐，将围绕因果科学领域的“混淆偏差”问题展开，关于它的解释，大家可以先看下面这个例子（熟悉的朋友也可以忽略这部分内容，直接阅读下面的“论文推荐”）。

锻炼能否降低胆固醇呢？如下图1，从每个年龄层来看可以降低，但是如果不分层则会提高胆固醇。

图1: 锻炼是否有利于健康？

这个问题便涉及混淆偏差，回答它仅仅靠数据不够，需要因果建模，转化本期周刊关注的因果问题：在拥有治疗变量 T，协变量 X 和结果变量 Y 的观测数据下的因果效应估计。

图2：因果之梯和因果推理引擎

推理引擎中，该问题属于因果之梯干预层的 Query，而 Data 是观测数据，Asumptions 则经常用潜结果框架(Potential Outcome) 来描述。

关于该因果问题如何回答，也就是去混淆偏差，浙江大学助理教授况琨向大家推荐了几篇论文，我们根据“基于匹配方法”、“倾向评分方法”和“直接均衡方法”三个类别分别选择两篇论文进行了整理和解读。

1. 论文推荐

前两篇论文是基于匹配的方法(Matching based method)，该方法基本思想是对比相似个体用药和不用药产生的效果差异。中间两篇是以倾向评分为工具，给定倾向评分则类似于随机化实验，而最后两篇是通过直接加权创造一个新的总体，使得混淆变量和治疗变量独立的方法。

1.1 基于匹配的方法(Matching based method) 一个前沿理论框架

Kallus, N. 2017. A Framework for Optimal Matching for Causal Inference. In Artificial Intelligence and Statistics, 372–381.

论文标题：因果推断的最优匹配框架框架

摘要：本文提出了一种从观测数据中进行因果推断的广义最优匹配方法(generalized optimal matching, GOM)，它涵盖了 atching、covariate balancing 以及 doubly robust 等方法。这套框架是基于对最优匹配的一种新的泛函分析的推广提出的，它产生了一类 GOM 的方法，本文提供了一套统一的理论框架来对它们进行可解性和一致性分析。许多已有的方法都可以被纳入 GOM 的框架，利用GOM视角的解释，可以将它们拓展成一种最优且自动的方差与性能之间的平衡策略。Kernel optimal matching (KOM) 作为GOM的一类子类，理论和经验结论表明，可以将许多方法的优点汇集在这一类方法中。KOM可以转化为求解线性约束的凸二次优化问题，在继承了可解释性与 model-free 的匹配一致性同时，还实现了在特定回归问题下的、减少 bias 以及和 doubly robust 方法相当的鲁棒性。在有限重叠(limited overlap)的设定下，KOM是一种对于部分识别和鲁棒覆盖问题的可移植的区间估计方法。文章在生成数据和真实数据下验证了这点。