文章目录
HernKaTeX parse error: Can't use function '\'' in math mode at position 1: \̲'̲{a}n M. and Robins J. Causal Inference: What If.
概
这一章主要讨论的是, 观测得到的数据(而非随机实验)在什么条件下可以视为是随机试验.
outcome predictors: 一些会导致 Y Y Y发生的诱因
3.1
-
我们所考虑的 A A A和实验中实际的采取的手段 A A A是相一致的.
-
采取何种手段 A A A仅仅与 L L L有关(这里考虑, L , A , Y L, A, Y L,A,Y三个元素).
-
P r ( A ∣ L ) > 0 \mathrm{Pr}(A|L) > 0 Pr(A∣L)>0, 即正定性.
下面是一点一点的分析这三个点的重要性.
3.2 Exchangeability
这个对应的是第二点, 即我们要探究是否
A
A
A仅仅与
L
L
L有关, 从而有可交换性:
Y
a
⨿
A
∣
L
.
Y^a \amalg A |L.
Ya⨿A∣L.
一旦遇到上面的情况, 往往就没有上述可交换性的保证了.
3.3 Positivity
设想
L
L
L代表的是一个人是否吸烟, 倘若一个医生仅仅给不吸烟的人进行心脏迁移手术, 即
P
r
[
A
=
1
∣
L
=
1
]
=
0
,
\mathrm{Pr}[A=1|L=1] = 0,
Pr[A=1∣L=1]=0,
则我们就完全丢失了这部分信息, 自然也没办法计算casual effect, 因为
P
r
[
Y
∣
A
=
1
,
L
=
1
]
\mathrm{Pr}[Y|A=1, L=1]
Pr[Y∣A=1,L=1]
压根没有定义.
3.4 Consistency
一致性分类预期结果的一致性, 以及结果和观测数据的一致性
First
现在假设
A
∈
{
0
,
1
}
A \in \{0, 1\}
A∈{0,1}, 即代表是否进行心脏移植手术, 但是在实际中,
A
A
A并非如此纯粹的0, 1.
实际上, 取决于器材, 外科医生的差别会衍生出不同版本的
A
A
A.
当然了, 这么讨论下去只会导致不可知论, 我们可以在某种程度上假设, 不过对
A
A
A的描述越细致, 即越细分, 最后的结论也会更加精准.
Second
这个一致性, 用公式就是
Y
a
=
Y
,
A
=
a
,
Y^a = Y, A=a,
Ya=Y,A=a,
这个很重要, 因为我们在计算causal effect的时候有这么一步
P
r
[
Y
∣
A
=
a
,
L
]
=
P
r
[
Y
a
∣
A
=
a
,
L
]
.
\mathrm{Pr}[Y|A=a, L] = \mathrm{Pr}[Y^a|A=a, L].
Pr[Y∣A=a,L]=Pr[Ya∣A=a,L].
这个一致性, 个人的理解是, 我们所观察的
A
=
a
A=a
A=a有很多版本, 可能与我们所希望的
Y
a
Y^a
Ya并不一致, 导致
Y
a
≠
Y
Y^a \not = Y
Ya=Y.
这里有一个微妙的东西, 实在是不知道如何描述了.
Fine Point
3.1 Identifiability of causal effects
指, 倘若不是随机实验, 我们需要一些额外的假设来得以计算causal effect.
3.2 Crossover randomized experiments
p32
这个讨论的是在不同的时间点 t = 0 , t = 1 t=0, t=1 t=0,t=1.
3.3 Possible worlds
p35
3.4 Attributable fraction
p38
Technical Point
3.1 Positivity for standardization and IP weighting
p32
上一章讲了利用standardization 和 IP weighting 在条件可交换的假定下, 我们可以计算causal effect.
但是, 实际上这同时是需要positivity的假定的.
standardization:
∑
l
E
[
Y
∣
A
=
a
,
L
=
l
]
P
r
[
L
=
l
]
,
\sum_l \mathbb{E} [Y|A=a, L=l] \mathrm{Pr} [L=l],
l∑E[Y∣A=a,L=l]Pr[L=l],
这个式子需要
E
[
Y
∣
A
=
a
,
L
=
l
]
\mathbb{E}[Y|A=a, L=l]
E[Y∣A=a,L=l], 但是这个在某些
P
(
A
=
a
∣
L
=
l
)
=
0
P(A=a|L=l)=0
P(A=a∣L=l)=0的情况下是没有定义的.
另一方面, IP weighting
E
[
I
(
A
=
a
)
Y
f
(
A
∣
L
)
]
=
P
r
[
L
∈
Q
(
a
)
]
∑
l
E
[
Y
∣
A
=
a
,
L
=
l
,
L
∈
Q
(
a
)
]
P
r
[
L
=
l
∣
L
∈
Q
(
a
)
]
,
\mathbb{E} [\frac{I(A=a)Y}{f(A|L)}] = \mathrm{Pr}[L \in Q(a)]\sum_{l} \mathbb{E} [Y|A=a, L=l, L\in Q(a)] \mathrm{Pr} [L=l|L \in Q(a)],
E[f(A∣L)I(A=a)Y]=Pr[L∈Q(a)]l∑E[Y∣A=a,L=l,L∈Q(a)]Pr[L=l∣L∈Q(a)],
其中
Q
(
a
)
=
{
l
;
P
r
(
A
=
a
∣
L
=
l
)
>
0
}
Q(a) = \{l; \mathrm{Pr} (A=a|L=l)>0\}
Q(a)={l;Pr(A=a∣L=l)>0}.
相当于, 认为地目标的集合缩小了.
里头还说, 上述的与
E
[
I
(
A
=
a
)
Y
f
(
a
∣
L
)
]
\mathbb{E} [\frac{I(A=a)Y}{f(a|L)}]
E[f(a∣L)I(A=a)Y]
不同, 而且说后者是undefined的, 可是后决定后者才是等价于上面所说的啊.
不过我倒是觉得无所谓的, 毕竟我们应该关心我们所关心的, 限定在
f
(
a
∣
L
)
≠
0
f(a|L)\not = 0
f(a∣L)=0才是合适的区域.
3.2 Cheating consistency
p40