本文是Youtube上causal inference课程系列的笔记,便于以后回顾。课程作者是Brady Neal, 视频link在这里。这个lecture很长,但基本上看完Chapter 1和2就能大致知道causal inference的大部分内容了。
Chap 1. Intro
Motivation是Simpson's paradox。假设对于一个disease有A(0)和B(1)两种treatments,病人有mild(0)和severe(1)两种状态,治疗有alive(0)和dead(1)两种结果。实验后得到的死亡率结果是
Total | |
A | 16% (240/1500 patients) |
B | 19% (105/550 patients) |
看起来A的结果更好。但如果zoom in到subgroups,死亡率结果是
Mild | Severe | Total | |
A | 15% (210/1400) |
30% (30/100) |
16% (240/1500) |
B | 10% (5/50) |
20% (100/500) |
19% (105/550) |
在每个subgroup里都是B的结果更好,跟total的结论相悖。其实就是因为A和B的population distribution不同。
那么我们到底应该采用哪种treatment呢?要看treatment (T), 病人状态 (C)和治疗结果 (Y)三者之间的casual structure。
如果C causes T,如下左图,那么mild patients会被assign A,severe会被assign B,这也是上表中每个subgroup里大多数人被assign的情况。B对severe更有效,对mild因为sample size不够大所以不会被采用。
(1) (2)
而当T causes C时,如上右图,treatment A应该被采用。因为如上表所示,被assign B的人大多数都成为了severe患者,而A的患者大多都是mild。
在上图第一种structure中,the total association between T and Y is a mixture of causal and confounding association, where C is the c