文章目录
在之前, 一直假设样本数量足够大, 从而没有随机因素的影响(即把以个体看成一亿或者更多个体的集合).
但是这种假设在实际中显然是不合理的, 往往我们只有少量的数据.
10.1 Identification versus estimation
即使样本很多的一致性estimator也有可能离其正确的值相差很远.
另外, 这一节还提了提Wald confidence.
似乎用的就是一般的大样本的区间估计, 就是:
X
ˉ
−
μ
σ
∼
N
(
0
,
1
)
.
\frac{\bar{X} - \mu}{\sigma} \sim \mathcal{N} (0, 1).
σXˉ−μ∼N(0,1).
对于伯努利的情况,
μ
=
p
,
σ
=
p
(
1
−
p
)
n
.
\mu = p, \sigma = \sqrt{\frac{p(1-p)}{n}}.
μ=p,σ=np(1−p).
10.2 Estimation of causal effects
10.3 The myth of the super-population
在我们估计类似上面讲的置信区间的时候,
randomness 有两个来源:
- 本章将的采样的随机性;
- 来自于不确定的conterfactuals.
实际上, 我们能这么估计置信区间的原因是, 这些样本的确来源于一个binomial分布.
但是实际上, 有可能是每一个样本有一个独立的概率分布
p
i
p_i
pi, 然后我们最后所观测到的
p
p
p是一个均值而已(好浮夸).
10.4 The conditionality “principle”
V a r ( X ˉ 1 − X ˉ 2 ) = V a r ( X ˉ 1 ) + V a r ( X ˉ 2 ) . \mathrm{Var} (\bar{X}_1 - \bar{X}_2)= \mathrm{Var} (\bar{X}_1) + \mathrm{Var} (\bar{X}_2). Var(Xˉ1−Xˉ2)=Var(Xˉ1)+Var(Xˉ2).
在confounders并不多的时候, 选择adjust for这些confounders是一个不错的主意.
The curse of dimensionality
Fine Point
Honest confidence intervals
uniform, honest: 存在一个样本数量n, 能够确保95%置信区间在95%的实验中发生.
Uncertainty from systematic bias
除了采样的误差, 置信区间的随机性也有可能是confounding, selection, measurement这些系统偏置带来的.
Technical Point
Bias and consistency in statistical inference
consistent estimator:
P
r
P
[
∣
θ
^
n
−
θ
(
P
)
∣
>
ϵ
]
→
0
a
s
n
→
∞
f
o
r
e
v
e
r
y
ϵ
>
0
,
P
∈
M
.
\mathrm{Pr}_P [|\hat{\theta}_n- \theta(P)| > \epsilon] \rightarrow 0 \quad \mathrm{as} \: n \rightarrow \infty \: \mathrm{for} \: \mathrm{every} \: \epsilon > 0, P \in \mathcal{M}.
PrP[∣θ^n−θ(P)∣>ϵ]→0asn→∞foreveryϵ>0,P∈M.
A formal statement of the conditionality principle
Approximate ancillarity
不想看.