1.因果关系的定义?
举个栗子:
背景:小明是个土财主,有一天他打了佣人一棍子,第二天佣人死了。
问题:打的那棍子是造成佣人死亡的原因么?
在因果推断中,是否打人是处理变量,是否死亡是响应变量,影响我们判断的乱七八糟的其他因素是混淆变量。
如果我们认为小明打人是致死的原因的话,其实我们本质上是做了这样一个假设的:如果当时小明不打他,他就不会死!
这就引入了我们的第一个概念–反事实
- 事实状态:我们自己可以看到,经历了的状态;
- 反事实状态:处理变量取值为"现实生活中没有发生"的状态下,响应变量的取值.
既然是反事实,就代表着无法在事实中进行观测。简单来讲,就是你无法得知小明没打佣人的结果,因为"世上没有后悔药".
这就引入了
因果推断中的根本性问题:
反事实状态无法直接观测!就无法计算个体性的因果关系(佣人被打的结果-佣人没被打的结果)
解决根本性问题的措施:
找到和被研究者特别相像的替代者,用他们在不同处理变量下的响应变量值去估计被研究者的反事实结果。
放在小明的例子中,最好就是找一个佣人的双胞胎,看看另一个没被打双胞胎是不是死亡了,一次来估算这个佣人如果没被打的结果。
为了便于叙述,引入一些基本符号:
- 响应变量 Y Y Y ,比如 Y Y Y={1=佣人死亡,0=佣人没死}
- 处理变量 D D D,比如 D D D={1=小明打人,0=小明不打人}
- 个体 i i i 的因果效应: τ i = Y i ( D = 1 ) − Y i ( D = 0 ) : = Y ( 1 ) − Y ( 0 ) τ_{i}=Y_i(D=1)-Y_i(D=0):=Y(1)-Y(0) τi=Yi(D=1)−Yi(D=0):=Y(1)−Y(0)
- 关系式: