背景
随着科技的发展, 我们正进入大数据时代,对数据进行统计推断的需求也越来越多。统计推断中的一个重要问题便是参数估计,衡量一个估计量好坏的标准之一便是这个估计量的方差。通常,方差是未知的,只能利用本身现有样本数据进行估计。这篇文章主要介绍一下最近学习的一些方差估计方法,主要参考Wolter的《Introduction to variance estimation》一书。
随机组方法(Random Groups)
随机组是一种实验设计方法,其中样本通过随机抽样被分配到不同的组别中,在不同组里,我们可以利用多个独立样本构建参数的估计量,并通过这些估计量之间的方差来估计方差。这种方法可以简化方差估计的过程,该方法已经比较成熟,也是我们目前最常用的方差估计方法之一.
现在考虑有来自某总体的
k
k
k组样本,需要估计的参数为
θ
\theta
θ, 记
θ
^
α
\hat{\theta}_\alpha
θ^α是第
α
\alpha
α组对
θ
\theta
θ的估计量
(
α
=
1
,
2
,
⋯
,
k
)
(\alpha = 1,2,\cdots,k)
(α=1,2,⋯,k),下面的定理给出了随机组方差估计的形式:
定理1.1.设
θ
^
1
,
…
,
θ
^
k
\hat{\theta}_1, \ldots, \hat{\theta}_k
θ^1,…,θ^k 不相关且期望均为
E
{
θ
^
1
}
=
μ
\mathrm{E}\{\hat{\theta}_1\}=\mu
E{θ^1}=μ.记
θ
ˉ
^
\hat{\bar{\theta}}
θˉ^ 定义为
θ
ˉ
^
=
∑
α
=
1
k
θ
^
α
/
k
.
\hat{\bar{\theta}}=\sum_{\alpha=1}^k \hat{\theta}_\alpha / k.
θˉ^=α=1∑kθ^α/k.
则
E
{
θ
ˉ
^
}
=
μ
\mathrm{E}\{\hat{\bar{\theta}}\}=\mu
E{θˉ^}=μ ,且其方差
Var
{
θ
ˉ
^
}
\operatorname{Var}\{\hat{\bar{\theta}}\}
Var{θˉ^} 的无偏估计为
v
(
θ
ˉ
^
)
=
∑
α
=
1
k
(
θ
^
α
−
θ
ˉ
^
)
2
/
k
(
k
−
1
)
.
v(\hat{\bar{\theta}})=\sum_{\alpha=1}^k\left(\hat{\theta}_\alpha-\hat{\bar{\theta}}\right)^2 / k(k-1) .
v(θˉ^)=α=1∑k(θ^α−θˉ^)2/k(k−1).
注1:
θ
ˉ
^
\hat{\bar{\theta}}
θˉ^可以作为全样本下参数
μ
\mu
μ的估计,
v
(
θ
ˉ
^
)
v(\hat{\bar{\theta}})
v(θˉ^)是
θ
ˉ
^
\hat{\bar{\theta}}
θˉ^的随机组方差估计量(random groups).注2:一般都取
θ
=
μ
\theta = \mu
θ=μ, 可以发现,当每一个组别的样本量都是
1
1
1时,
θ
ˉ
^
\hat{\bar{\theta}}
θˉ^和
v
(
θ
ˉ
^
)
v(\hat{\bar{\theta}})
v(θˉ^)分别是我们平时最熟悉的平均值和标准差.对估计量
θ
ˉ
^
\hat{\bar{\theta}}
θˉ^而言,有了方差估计便可以尝试算置信区间或者做假设检验了,此外,一般会有正态分布和t分布假设. 设
θ
^
1
,
…
,
θ
^
k
\hat{\theta}_1, \ldots, \hat{\theta}_k
θ^1,…,θ^k独立且分布均为
N
(
θ
,
σ
2
)
N\left(\theta, \sigma^2\right)
N(θ,σ2),则有:
(i)统计量
z
=
(
θ
ˉ
^
−
θ
)
/
σ
2
/
k
∼
N
(
0
,
1
)
.
z=(\hat{\bar{\theta}}-\theta) / \sqrt{\sigma^2 / k}\sim N(0,1).
z=(θˉ^−θ)/σ2/k∼N(0,1).
(ii)统计量
t
=
(
θ
ˉ
^
−
θ
)
/
v
(
θ
ˉ
^
)
∼
t
(
k
−
1
)
.
t=(\hat{\bar{\theta}}-\theta) / \sqrt{v(\hat{\bar{\theta}})}\sim t(k - 1).
t=(θˉ^−θ)/v(θˉ^)∼t(k−1).
注:当k足够大时候
θ
\theta
θ的
(
1
−
α
)
100
%
(1-\alpha) 100 \%
(1−α)100% 置信区间为
(
θ
ˉ
^
−
z
α
/
2
v
(
θ
ˉ
^
)
,
θ
^
+
z
α
/
2
v
(
θ
ˉ
^
)
)
,
\left.\left(\hat{\bar{\theta}}-z_{\alpha / 2} \sqrt{v(\hat{\bar{\theta}})}, \hat{\theta}+z_{\alpha / 2} \sqrt{v(\hat{\bar{\theta}}}\right)\right),
(θˉ^−zα/2v(θˉ^),θ^+zα/2v(θˉ^)),
其中
z
α
/
2
z_{\alpha / 2}
zα/2 标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1) 的上侧
α
/
2
\alpha / 2
α/2 分位点. 可以发现,这个定理其实是我们在学数理统计时的抽样分布.
前面我们介绍了随机组方差估计, 定理也表明其是无偏的, 但应该如何衡量方差估计的稳定性呢?还有分组数
k
k
k应该怎么选择呢?这里作者给出了一个常用的准则,便是变异系数:
CV
{
v
(
θ
ˉ
^
)
}
=
[
Var
{
v
(
θ
ˉ
^
)
}
]
1
/
2
/
Var
{
θ
ˉ
^
}
.
\operatorname{CV}\{v(\hat{\bar{\theta}})\}=[\operatorname{Var}\{v(\hat{\bar{\theta}})\}]^{1 / 2} / \operatorname{Var}\{\hat{\bar{\theta}}\} .
CV{v(θˉ^)}=[Var{v(θˉ^)}]1/2/Var{θˉ^}.
其中分子是该估计量的方差开根号,分母是其期望.
定理1.2. 设
θ
^
1
,
…
,
θ
^
k
\hat{\theta}_1, \ldots, \hat{\theta}_k
θ^1,…,θ^k 独立同分布,
v
(
θ
ˉ
^
)
v(\hat{\bar{\theta}})
v(θˉ^) 为之前定义.则
CV
{
v
(
θ
ˉ
^
)
}
=
{
β
4
(
θ
^
1
)
−
(
k
−
3
)
/
(
k
−
1
)
k
}
1
/
2
,
\operatorname{CV}\{v(\hat{\bar{\theta}})\}=\left\{\frac{\beta_4\left(\hat{\theta}_1\right)-(k-3) /(k-1)}{k}\right\}^{1 / 2},
CV{v(θˉ^)}=⎩
⎨
⎧kβ4(θ^1)−(k−3)/(k−1)⎭
⎬
⎫1/2,
其中
β
4
(
θ
^
1
)
=
E
{
(
θ
^
1
−
μ
)
4
}
[
E
{
(
θ
^
1
−
μ
)
2
}
]
2
,
μ
=
E
{
θ
^
1
}
.
\begin{aligned} \beta_4\left(\hat{\theta}_1\right) & =\frac{\mathrm{E}\left\{\left(\hat{\theta}_1-\mu\right)^4\right\}}{\left[\mathrm{E}\left\{\left(\hat{\theta}_1-\mu\right)^2\right\}\right]^2}, \\ \mu & =\mathrm{E}\left\{\hat{\theta}_1\right\} . \end{aligned}
β4(θ^1)μ=[E{(θ^1−μ)2}]2E{(θ^1−μ)4},=E{θ^1}.
可以看出, CV 依赖于
β
4
(
θ
^
1
)
\beta_4\left(\hat{\theta}_1\right)
β4(θ^1)和
k
k
k, 当
k
k
k较小或者峰度
β
4
(
θ
^
1
)
\beta_4\left(\hat{\theta}_1\right)
β4(θ^1)较大时,CV 偏大. 因此,在选择组别数
k
k
k时,应当越多越好.
Jackknife
Jackknife方法最早由Quenouille(1949年)提出, 并用于估计量的纠偏(debias).
Tukey(1958年)提出,可以将各个子样本估计量合理地视为独立且同分布的随机变量,从而得到一个简单却实用的方差估计量.
首先介绍Jackknife方法的基本定义,设
Y
1
,
…
,
Y
n
Y_1, \ldots, Y_n
Y1,…,Yn是来自总体
F
(
y
)
F(y)
F(y)的独立同分布样本. 对于感兴趣的参数
θ
\theta
θ, 假设
θ
^
\hat{\theta}
θ^ 是基于全部样本的估计量. 现在考虑将完整样本分成
k
k
k组,每组有
m
m
m个观测值,其中
n
=
m
k
n=mk
n=mk, 对于每个
α
=
1
,
…
,
k
\alpha=1,…,k
α=1,…,k,计算去掉第
α
\alpha
α组后剩余
m
(
k
−
1
)
m(k-1)
m(k−1)个观测样本的估计量
θ
^
(
−
α
)
\hat{\theta}_{(-\alpha)}
θ^(−α), 然后定义
θ
^
α
=
k
θ
^
−
(
k
−
1
)
θ
^
(
−
α
)
.
\hat{\theta}_\alpha=k \hat{\theta}-(k-1) \hat{\theta}_{(-\alpha)} .
θ^α=kθ^−(k−1)θ^(−α).
Quenouille提出的估计量便是便是这些
θ
^
α
\hat{\theta}_\alpha
θ^α的均值,
θ
^
j
a
c
k
=
∑
α
=
1
k
θ
^
α
/
k
,
\hat{\theta}_{jack}=\sum_{\alpha=1}^k \hat{\theta}_\alpha / k,
θ^jack=α=1∑kθ^α/k,
注:当
k
=
n
,
m
=
1
k = n,m = 1
k=n,m=1时,
θ
^
(
−
α
)
\hat{\theta}_{(-\alpha)}
θ^(−α)便是去掉单个样本的情况.
相信大家看到这个
θ
^
α
\hat{\theta}_\alpha
θ^α形式的时候有点懵,这里我尝试用一个特殊的例子解释一下
θ
^
(
−
α
)
\hat{\theta}_{(-\alpha)}
θ^(−α)是如何达到纠偏效果的. 假设
k
=
n
,
m
=
1
k = n,m = 1
k=n,m=1,
θ
^
\hat{\theta}
θ^估计
θ
\theta
θ具有一阶偏差,即
E
{
θ
^
}
=
θ
+
a
1
/
n
,
E\{\hat{\theta}\}=\theta+a_1 / n ,
E{θ^}=θ+a1/n,
则有
E
{
θ
^
(
−
α
)
}
=
θ
+
a
1
/
(
n
−
1
)
,
E\{\hat{\theta}_{(-\alpha)}\}=\theta+a_1 / (n - 1),
E{θ^(−α)}=θ+a1/(n−1), 为了消去偏差带有
a
1
a_1
a1项的偏差, 自然可以通过作差,简单计算可以得到
E
{
n
θ
^
−
(
n
−
1
)
θ
^
(
−
α
)
}
=
θ
E\{n\hat{\theta} - (n - 1)\hat{\theta}_{(-\alpha)}\} = \theta
E{nθ^−(n−1)θ^(−α)}=θ, 即
n
θ
^
−
(
n
−
1
)
θ
^
(
−
α
)
n\hat{\theta} - (n - 1)\hat{\theta}_{(-\alpha)}
nθ^−(n−1)θ^(−α)是
θ
\theta
θ的无偏估计, 此时纠偏的目的就达到了,这也可以简单解释Jackknife估计量是如何得到的.
按照Tukey的建议,将
θ
^
α
\hat{\theta}_\alpha
θ^α视为近似独立且同分布的随机变量, 此时Jackknife方差估计为:
v
1
(
θ
^
j
a
c
k
)
=
∑
α
=
1
k
(
θ
^
α
−
θ
^
j
a
c
k
)
2
k
(
k
−
1
)
.
v_1(\hat{{\theta}}_{jack})= \frac{\sum_{\alpha=1}^k\left(\hat{\theta}_\alpha-\hat{{\theta}}_{{jack}}\right)^2}{k(k-1)}.
v1(θ^jack)=k(k−1)∑α=1k(θ^α−θ^jack)2.
这里
θ
^
j
a
c
k
\hat{{\theta}}_{jack}
θ^jack也可以直接用
θ
^
\hat{\theta}
θ^代替,
即
v
2
(
θ
^
j
a
c
k
)
=
∑
α
=
1
k
(
θ
^
α
−
θ
^
)
2
k
(
k
−
1
)
.
v_2(\hat{{\theta}}_{jack})= \frac{\sum_{\alpha=1}^k\left(\hat{\theta}_\alpha-\hat{{\theta}}\right)^2}{k(k-1)}.
v2(θ^jack)=k(k−1)∑α=1k(θ^α−θ^)2.
这两个方差估计的关系是
v
2
(
θ
^
j
a
c
k
)
=
v
1
(
θ
^
j
a
c
k
)
+
(
θ
^
−
θ
^
j
a
c
k
)
2
/
(
k
−
1
)
v_2(\hat{{\theta}}_{jack}) = v_1(\hat{\theta}_{jack}) + (\hat{\theta} - \hat{\theta}_{jack})^2 / (k - 1)
v2(θ^jack)=v1(θ^jack)+(θ^−θ^jack)2/(k−1)
接下来简单介绍一些Jackknife方法的性质.
许多重要参数可以表示为
θ
=
g
(
μ
)
\theta=g(\mu)
θ=g(μ)的形式,其中
μ
\mu
μ表示期望
E
{
Y
i
}
=
μ
\mathrm{E}\left\{Y_i\right\}=\mu
E{Yi}=μ。尽管
Y
ˉ
=
n
−
1
∑
j
=
1
n
Y
j
\bar{Y}=n^{-1} \sum_{j=1}^n Y_j
Yˉ=n−1j=1∑nYj
是
μ
\mu
μ的无偏估计量,但
θ
^
=
g
(
Y
ˉ
)
\hat{\theta}=g(\bar{Y})
θ^=g(Yˉ)通常是
θ
=
g
(
μ
)
\theta=g(\mu)
θ=g(μ)的有偏估计量. Quenouille给出的估计量形式为
θ
^
j
a
c
k
=
k
g
(
Y
ˉ
)
−
(
k
−
1
)
k
−
1
∑
α
=
1
k
g
(
Y
ˉ
(
−
α
)
)
,
\hat{{\theta}}_{jack}=k g(\bar{Y})-(k-1) k^{-1} \sum_{\alpha=1}^k g\left(\bar{Y}_{(-\alpha)}\right),
θ^jack=kg(Yˉ)−(k−1)k−1α=1∑kg(Yˉ(−α)),
其中
Y
ˉ
(
−
α
)
\bar{Y}_{(-\alpha)}
Yˉ(−α)表示去掉第
α
\alpha
α组观测值后
m
(
k
−
1
)
m(k−1)
m(k−1)个观测值的样本均值.
下面的定理保证了其渐近性结果.
定理2.1. 令
{
Y
j
}
\left\{Y_j\right\}
{Yj}是独立同分布的随机变量序列,其均值为
μ
\mu
μ,方差为
0
<
σ
2
<
∞
0<\sigma^2<\infty
0<σ2<∞.令
g
(
⋅
)
g(\cdot)
g(⋅)是定义在实数域上的函数,在
μ
\mu
μ的邻域内具有有界二阶导数。那么,
k
→
∞
,
k
1
/
2
(
θ
^
j
a
c
k
−
θ
)
k \rightarrow \infty, k^{1 / 2}(\hat{{\theta}}_{jack}-\theta)
k→∞,k1/2(θ^jack−θ)在分布上收敛于均值为零,方差为
σ
2
{
g
′
(
μ
)
}
2
\sigma^2\left\{g^{\prime}(\mu)\right\}^2
σ2{g′(μ)}2的正态分布随机变量,其中
g
′
(
μ
)
g^{\prime}(\mu)
g′(μ)是
g
(
⋅
)
g(\cdot)
g(⋅)在
μ
\mu
μ处的一阶导数。
该定理保证了参数一般形式下的渐近性结果,极限分布有点像我们后面要介绍的Delta方法.
最后又是关于分组数
k
k
k的选择了,主要有两个考量因素:计算成本和估计量的准确性,
k
k
k越大,计算成本越大,精度更高;
k
k
k越小,计算成本越小,但准确性可能较差.在大数据集上,在选择时希望在计算成本和精确度之间找到平衡.
最后这里仅仅介绍了Jackknife在方差估计方面的结果,有兴趣的同学可以了解他的纠偏理论.
Bootstrap
接下来介绍大名鼎鼎的Bootstrap方法.在前面小节中,我们讨论了几种基于重复的方差估计方法, Bootstrap核心思想是有放回抽样,也是所谓的重复方法,那么Bootstrap与其他复制方法有何不同?在最简单的情况下,随机组是基于样本量为
n
/
k
n/k
n/k的重复;Jackknife方法则使用样本量为
n
−
1
n-1
n−1的重复。相比之下,Bootstrap使用潜在样本量为
n
⋆
{n}^{\star}
n⋆的任何重复.
现考虑常规的Bootstrap方法,设
Y
1
,
Y
2
,
⋯
,
Y
n
Y_1,Y_2,\cdots,Y_n
Y1,Y2,⋯,Yn是来自分布函数为
F
F
F总体的独立同分布样本,设
θ
\theta
θ是感兴趣的未知参数,
θ
^
\hat{\theta}
θ^是基于样本对
θ
\theta
θ的估计,我们希望能估计
θ
^
\hat{\theta}
θ^的方差,即
V
a
r
(
θ
^
)
\mathrm{Var}(\hat{\theta})
Var(θ^). Bootstrap方法步骤如下:
(i) 考虑一个较大的整数
A
A
A, 对于
α
=
\alpha=
α=
1
,
…
,
A
1, \ldots, A
1,…,A,每次从
{
Y
1
,
Y
2
,
⋯
,
Y
n
}
\{Y_1,Y_2,\cdots,Y_n\}
{Y1,Y2,⋯,Yn}进行
n
⋆
{n}^{\star}
n⋆次有放回抽样,得到
Y
α
1
∗
,
…
,
Y
α
n
∗
Y_{\alpha 1}^*, \ldots, Y_{\alpha n}^*
Yα1∗,…,Yαn∗;
(ii)对每次有放回抽样得到的样本,计算相应的估计量
θ
^
α
∗
\hat{\theta}_\alpha^*
θ^α∗;
(iii)计算
θ
^
α
∗
\hat{\theta}_\alpha^*
θ^α∗之间的方差:
v
(
θ
^
)
=
1
A
−
1
∑
α
=
1
A
(
θ
^
α
∗
−
θ
^
∗
)
2
,
θ
^
∗
=
1
A
∑
α
=
1
A
θ
^
α
∗
.
\begin{gathered} v(\hat{\theta})=\frac{1}{A-1} \sum_{\alpha=1}^A\left(\hat{\theta}_\alpha^*-\hat{\theta}^*\right)^2, \\ \hat{\theta}^*=\frac{1}{A} \sum_{\alpha=1}^A \hat{\theta}_\alpha^* . \end{gathered}
v(θ^)=A−11α=1∑A(θ^α∗−θ^∗)2,θ^∗=A1α=1∑Aθ^α∗.
自然地,
v
(
θ
^
)
v(\hat{\theta})
v(θ^)便可以作为估计量
θ
^
\hat{\theta}
θ^的方差估计,一般取
n
⋆
=
n
{n}^{\star} = n
n⋆=n, 大佬Efron 和 Tibshirani (1986) 指出
A
A
A取50到200能满足大多数情况,但是我看好像一般取1000比较多? 毕竟
A
A
A多多益善.
Bootstrap是非常实用的Model-Free非参方法,除了估方差之外,还可以估偏差,估分布,算置信区间,做假设检验等等,这里只是简单介绍一下估方差的基本用法,后续可以写篇文章专门介绍Bootstrap.
Taylor展开线性近似
在很多情况下,估计量可能非线性的,一些常见例子比如比值、相关系数、回归系数等都是这种情况. 非线性估计量的方差通常没有显性表达式, 一种估计非线性估计量方差的方法是利用观测值的线性函数来近似, 基于线性估计量, 就可以应用特定的方差估计方法,这虽然可能会导致一定偏差, 但通常是相合的.
如何进行线性近似?可以考虑一阶Taylor展开,在此之前先介绍一些概率意义下阶的概念.
定义. 对于一列
p
p
p维随机向量
Y
n
\mathbf{Y}_n
Yn,实数列
r
n
r_n
rn,若
∀
ε
>
0
\forall \varepsilon>0
∀ε>0,存在实正数
M
ε
M_{\varepsilon}
Mε,满足
P
{
∣
Y
j
n
∣
≥
M
ε
r
n
}
≤
ε
,
j
=
1
,
…
,
p
,
∀
n
∈
N
+
,
P\left\{\left|Y_{j n}\right| \geq M_{\varepsilon} r_n\right\} \leq \varepsilon, \quad j=1, \ldots, p, \quad \forall n \in \mathbb{N}^{+} ,
P{∣Yjn∣≥Mεrn}≤ε,j=1,…,p,∀n∈N+,
则称
Y
n
=
O
p
(
r
n
)
.
\mathbf{Y}_n=O_p\left(r_n\right).
Yn=Op(rn).
这个定义主要表明一个随机向量的阶由其每个维度决定.
考虑
g
(
Y
n
)
g\left(\mathbf{Y}_n\right)
g(Yn)在
g
(
a
)
g(\mathbf{a})
g(a)点的泰勒展开:
g
(
Y
n
)
=
g
(
a
)
+
a
⊤
∇
g
(
a
)
+
R
n
(
Y
n
,
a
)
,
g\left(\mathbf{Y}_n\right)=g(\mathbf{a})+ \mathbf{a}^{\top}\nabla g(\mathbf{a}) +R_n\left(\mathbf{Y}_n, \mathbf{a}\right),
g(Yn)=g(a)+a⊤∇g(a)+Rn(Yn,a),
其中余项
R
n
(
Y
n
,
a
)
=
∑
j
=
1
p
∑
i
=
1
p
1
2
!
∂
2
g
(
a
¨
)
∂
y
j
∂
y
i
(
Y
j
n
−
a
j
)
(
Y
i
n
−
a
i
)
,
R_n\left(\mathbf{Y}_n, \mathbf{a}\right)=\sum_{j=1}^p \sum_{i=1}^p \frac{1}{2!} \frac{\partial^2 g(\ddot{\mathbf{a}})}{\partial y_j \partial y_i}\left(Y_{j n}-a_j\right)\left(Y_{i n}-a_i\right),
Rn(Yn,a)=j=1∑pi=1∑p2!1∂yj∂yi∂2g(a¨)(Yjn−aj)(Yin−ai),
∂
g
(
a
)
/
∂
y
j
\partial g(\mathbf{a}) / \partial y_j
∂g(a)/∂yj 是
g
(
y
)
g(\mathbf{y})
g(y) 关于
y
\mathbf{y}
y 的第
j
j
j 个分量在
y
=
a
¨
\mathbf{y}=\ddot{\mathbf{a}}
y=a¨处的偏导数,
y
=
a
¨
\mathbf{y}=\ddot{\mathbf{a}}
y=a¨是
g
(
y
)
g(\mathbf{y})
g(y) 关于
y
j
y_j
yj 和
y
i
y_i
yi 在
a
¨
\ddot{\mathbf{a}}
a¨ 处的二阶偏导数,而
a
¨
\ddot{\mathbf{a}}
a¨是连接
Y
n
\mathbf{Y}_n
Yn 和
a
\mathbf{a}
a的线段上的某一点.
定理4.1 令
Y
n
=
a
+
O
p
(
r
n
)
\mathbf{Y}_n=\mathbf{a}+O_p\left(r_n\right)
Yn=a+Op(rn), 且
r
n
→
0
,
n
→
∞
r_n \rightarrow 0, n \rightarrow \infty
rn→0,n→∞,则
g
(
Y
n
)
g\left(\mathbf{Y}_n\right)
g(Yn) 可以由上式的泰勒展开形式表示,并且余项
R
n
(
Y
n
,
a
)
=
O
p
(
r
n
2
)
R_n\left(\mathbf{Y}_n, \mathbf{a}\right)=O_p\left(r_n^2\right)
Rn(Yn,a)=Op(rn2).
注:该定理给出了
Y
n
\mathbf{Y}_n
Yn的余项和泰勒展开余项
R
n
(
Y
n
,
a
)
R_n\left(\mathbf{Y}_n, \mathbf{a}\right)
Rn(Yn,a)的关系,
在该定理基础上,很容易得到下面的定理.
定理4.2.令
Y
n
=
a
+
O
p
(
r
n
)
,
\mathbf{Y}_n=\mathbf{a}+O_p\left(r_n\right),
Yn=a+Op(rn), 其中
r
n
→
O
,
n
→
∞
r_n \rightarrow O, n \rightarrow \infty
rn→O,n→∞,令
E
{
Y
n
}
=
a
,
E
{
(
Y
n
−
a
)
⊤
(
Y
n
−
a
)
}
=
Σ
n
<
∞
.
\begin{aligned} \mathrm{E}\left\{\mathbf{Y}_n\right\} & =\mathbf{a}, \\ \mathrm{E}\left\{\left(\mathbf{Y}_n-\mathbf{a}\right)^{\top}\left(\mathbf{Y}_n-\mathbf{a}\right)\right\} & ={\Sigma}_n<\infty . \end{aligned}
E{Yn}E{(Yn−a)⊤(Yn−a)}=a,=Σn<∞.
则
E
{
(
g
(
Y
n
)
−
g
(
a
)
)
2
}
=
∇
g
(
a
)
⊤
Σ
n
∇
g
(
a
)
+
O
p
(
r
n
3
)
,
{\mathrm{E}}\left\{\left(g\left(\mathbf{Y}_n\right)-g(\mathbf{a})\right)^2\right\}=\nabla g(\mathbf{a})^{\top} {\Sigma}_n \nabla g(\mathbf{a})+O_p\left(r_n^3\right),
E{(g(Yn)−g(a))2}=∇g(a)⊤Σn∇g(a)+Op(rn3),
当
Y
n
\mathbf{Y}_n
Yn是一列独立同分布随机变量的均值时,可以得到更强的结论
定理4.2.若
Y
n
\mathbf{Y}_n
Yn是一列独立同分布随机变量的均值,其中每个随机变量都是
p
p
p维的,期望为
a
\mathbf{a}
a ,协方差矩阵为
Σ
\Sigma
Σ,且四阶矩存在,
g
(
y
)
\mathbf{g}(\mathbf{y})
g(y)在
a
\mathbf{a}
a的的邻域内具有连续三阶导数的函数,则
E
{
(
g
(
Y
n
)
−
g
(
a
)
)
2
}
=
1
n
d
Σ
n
d
′
+
O
p
(
n
−
1
2
)
,
{\mathrm{E}}\left\{\left(g\left(\mathbf{Y}_n\right)-g(\mathbf{a})\right)^2\right\}= \frac{1}{n}\mathbf{d} {\Sigma}_n \mathbf{d}^{\prime}+O_p\left(n^{-\frac{1}{2}}\right),
E{(g(Yn)−g(a))2}=n1dΣnd′+Op(n−21),
注:这个定理很好地解决了
g
(
Y
n
)
\mathbf{g}\left(\mathbf{Y}_n\right)
g(Yn)的方差估计问题,即只需要知道
Y
n
\mathbf{Y}_n
Yn的一阶矩和二阶矩信息,然后求
g
\mathbf{g}
g的梯度就可以了. 看到这里,可以发现
D
e
l
t
a
Delta
Delta方法和这个定理结果非常类似,不同点主要在于
D
e
l
t
a
Delta
Delta方法在渐近正态假设下,不仅可以得到方差估计,还可以得到渐近正态的结果.
Delta方法. 设
n
(
T
n
−
θ
)
→
d
N
p
(
0
,
Σ
(
θ
)
)
\sqrt{\mathrm{n}}\left(\boldsymbol{T}_{\mathrm{n}}-\boldsymbol{\theta}\right) \xrightarrow{\mathrm{d}} \mathrm{N}_{\mathrm{p}}(\mathbf{0}, \Sigma(\boldsymbol{\theta}))
n(Tn−θ)dNp(0,Σ(θ)). 令
g
:
R
p
↦
R
m
\boldsymbol{g}: \mathbb{R}^{\mathrm{p}} \mapsto \mathbb{R}^{\mathrm{m}}
g:Rp↦Rm 在
θ
\boldsymbol{\theta}
θ 可微且有非零梯度
∇
g
(
θ
)
\nabla \mathrm{g}(\boldsymbol{\theta})
∇g(θ) ,则
n
{
g
(
T
n
)
−
g
(
θ
)
}
→
d
N
m
(
0
,
∇
g
(
θ
)
⊤
Σ
(
θ
)
∇
g
(
θ
)
)
\sqrt{\mathrm{n}}\left\{\boldsymbol{g}\left(\boldsymbol{T}_{\mathrm{n}}\right)-\boldsymbol{g}(\boldsymbol{\theta})\right\} \xrightarrow{\mathrm{d}} \mathrm{N}_{\mathrm{m}}\left(\mathbf{0}, \nabla \boldsymbol{g}(\boldsymbol{\theta})^{\top} \Sigma(\boldsymbol{\theta}) \nabla \boldsymbol{g}(\boldsymbol{\theta})\right)
n{g(Tn)−g(θ)}dNm(0,∇g(θ)⊤Σ(θ)∇g(θ)).
注:Delta方法的证明也是通过泰勒展开,感兴趣的同学可以尝试证明一下.
下面我们考虑一些具体例子,试试如何用泰勒展开来估方差.
例1.
设
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn是来自同一总体独立同分布的样本,
Y
1
,
Y
2
,
⋯
,
Y
n
Y_1,Y_2,\cdots,Y_n
Y1,Y2,⋯,Yn亦是来自同一总体独立同分布的样本.对于估计量
θ
^
=
X
ˉ
/
Y
ˉ
\hat{\theta}=\bar{X} / \bar{Y}
θ^=Xˉ/Yˉ,令
g
(
x
,
y
)
=
x
/
y
g(x,y) = x / y
g(x,y)=x/y,则
∇
g
(
x
,
y
)
⊤
=
(
1
/
y
,
−
x
/
y
2
)
\nabla g(x,y) ^{\top} = (1 / y,- x / y^2)
∇g(x,y)⊤=(1/y,−x/y2).令
a
=
(
X
ˉ
,
Y
ˉ
)
⊤
\mathbf{a} = (\bar{X} , \bar{Y})^{\top}
a=(Xˉ,Yˉ)⊤,对于
Σ
=
C
o
v
(
a
,
a
)
\Sigma = \mathrm{Cov(\mathbf{a},\mathbf{a})}
Σ=Cov(a,a),可知
σ
11
=
V
a
r
(
X
ˉ
)
\sigma_{11} = \mathrm{Var}(\bar{X})
σ11=Var(Xˉ),
σ
12
=
σ
21
=
C
o
v
(
X
ˉ
,
Y
ˉ
)
\sigma_{12} = \sigma_{21} = \mathrm{Cov}(\bar{X},\bar{Y})
σ12=σ21=Cov(Xˉ,Yˉ),
σ
22
=
V
a
r
(
Y
ˉ
)
\sigma_{22} = \mathrm{Var}(\bar{Y})
σ22=Var(Yˉ),这里的
σ
i
j
\sigma_{ij}
σij都可以用样本
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn和
Y
1
,
Y
2
,
⋯
,
Y
n
Y_1,Y_2,\cdots,Y_n
Y1,Y2,⋯,Yn估出来,记为
σ
i
j
^
\hat{\sigma_{ij}}
σij^,从而可以得到
Σ
^
\hat{\Sigma}
Σ^.此时
v
(
θ
^
)
=
∇
g
(
a
)
⊤
Σ
^
∇
g
(
a
)
=
(
1
/
Y
ˉ
,
−
X
ˉ
/
Y
ˉ
2
)
Σ
^
(
1
/
Y
ˉ
,
−
X
ˉ
/
Y
ˉ
2
)
⊤
=
σ
^
11
Y
ˉ
2
+
σ
^
22
X
ˉ
2
Y
ˉ
4
−
2
σ
^
12
X
ˉ
Y
ˉ
3
.
\begin{aligned} v(\hat{\theta}) &= \nabla g(\mathbf{a}) ^{\top} \hat{\Sigma} \nabla g(\mathbf{a}) \\ &= (1/\bar{Y},-\bar{X}/\bar{Y}^2)\hat{\Sigma} (1/\bar{Y},-\bar{X}/\bar{Y}^2)^{\top}\\ &= \frac{{\hat{\sigma}}_{11}}{\bar{Y}^2} + \frac{\hat{\sigma}_{22} \bar{X}^2}{\bar{Y}^4} - \frac{2\hat{\sigma}_{12}\bar{X}}{\bar{Y}^3}. \end{aligned}
v(θ^)=∇g(a)⊤Σ^∇g(a)=(1/Yˉ,−Xˉ/Yˉ2)Σ^(1/Yˉ,−Xˉ/Yˉ2)⊤=Yˉ2σ^11+Yˉ4σ^22Xˉ2−Yˉ32σ^12Xˉ.
其他类似估计量,如
X
ˉ
Y
ˉ
,
X
ˉ
1
/
Y
ˉ
1
−
X
ˉ
2
/
Y
ˉ
2
,
exp
{
X
ˉ
}
\bar{X}\bar{Y},\bar{X}_1 / \bar{Y}_1 - \bar{X}_2 / \bar{Y}_2,\exp\{\bar{X}\}
XˉYˉ,Xˉ1/Yˉ1−Xˉ2/Yˉ2,exp{Xˉ},甚至
(
X
1
X
2
⋯
X
N
)
1
/
N
\left(X_1 X_2 \cdots X_N\right)^{1 / N}
(X1X2⋯XN)1/N等,都可以利用同样方法估方差.
总结
本文主要介绍了几种常用的方差估计方法,包括Random Groups,Jacknife,Bootstrap,Delta方法等,Random Groups其实和我们常用的方差公式差不多.Jacknife和Bootstrap在样本量较大时计算量可能有点大,相对而言,Delta方法普适性较强,可以很好地处理非线性估计量的方差问题,后续将介绍一些降方差的方法和Bootstrap原理.
参考文献:Wolter K M. Introduction to variance estimation[M]. New York: Springer, 2007.