数理统计中常用的方差估计方法

背景

随着科技的发展, 我们正进入大数据时代,对数据进行统计推断的需求也越来越多。统计推断中的一个重要问题便是参数估计,衡量一个估计量好坏的标准之一便是这个估计量的方差。通常,方差是未知的,只能利用本身现有样本数据进行估计。这篇文章主要介绍一下最近学习的一些方差估计方法,主要参考Wolter的《Introduction to variance estimation》一书。

随机组方法(Random Groups)

随机组是一种实验设计方法,其中样本通过随机抽样被分配到不同的组别中,在不同组里,我们可以利用多个独立样本构建参数的估计量,并通过这些估计量之间的方差来估计方差。这种方法可以简化方差估计的过程,该方法已经比较成熟,也是我们目前最常用的方差估计方法之一.
现在考虑有来自某总体的 k k k组样本,需要估计的参数为 θ \theta θ, 记 θ ^ α \hat{\theta}_\alpha θ^α是第 α \alpha α组对 θ \theta θ的估计量 ( α = 1 , 2 , ⋯   , k ) (\alpha = 1,2,\cdots,k) (α=1,2,,k),下面的定理给出了随机组方差估计的形式:

定理1.1.设 θ ^ 1 , … , θ ^ k \hat{\theta}_1, \ldots, \hat{\theta}_k θ^1,,θ^k 不相关且期望均为 E { θ ^ 1 } = μ \mathrm{E}\{\hat{\theta}_1\}=\mu E{θ^1}=μ.记 θ ˉ ^ \hat{\bar{\theta}} θˉ^ 定义为
θ ˉ ^ = ∑ α = 1 k θ ^ α / k . \hat{\bar{\theta}}=\sum_{\alpha=1}^k \hat{\theta}_\alpha / k. θˉ^=α=1kθ^α/k.
E { θ ˉ ^ } = μ \mathrm{E}\{\hat{\bar{\theta}}\}=\mu E{θˉ^}=μ ,且其方差 Var ⁡ { θ ˉ ^ } \operatorname{Var}\{\hat{\bar{\theta}}\} Var{θˉ^} 的无偏估计为
v ( θ ˉ ^ ) = ∑ α = 1 k ( θ ^ α − θ ˉ ^ ) 2 / k ( k − 1 ) . v(\hat{\bar{\theta}})=\sum_{\alpha=1}^k\left(\hat{\theta}_\alpha-\hat{\bar{\theta}}\right)^2 / k(k-1) . v(θˉ^)=α=1k(θ^αθˉ^)2/k(k1).
注1: θ ˉ ^ \hat{\bar{\theta}} θˉ^可以作为全样本下参数 μ \mu μ的估计, v ( θ ˉ ^ ) v(\hat{\bar{\theta}}) v(θˉ^) θ ˉ ^ \hat{\bar{\theta}} θˉ^的随机组方差估计量(random groups).注2:一般都取 θ = μ \theta = \mu θ=μ, 可以发现,当每一个组别的样本量都是 1 1 1时, θ ˉ ^ \hat{\bar{\theta}} θˉ^ v ( θ ˉ ^ ) v(\hat{\bar{\theta}}) v(θˉ^)分别是我们平时最熟悉的平均值和标准差.对估计量 θ ˉ ^ \hat{\bar{\theta}} θˉ^而言,有了方差估计便可以尝试算置信区间或者做假设检验了,此外,一般会有正态分布和t分布假设. 设 θ ^ 1 , … , θ ^ k \hat{\theta}_1, \ldots, \hat{\theta}_k θ^1,,θ^k独立且分布均为 N ( θ , σ 2 ) N\left(\theta, \sigma^2\right) N(θ,σ2),则有:
(i)统计量 z = ( θ ˉ ^ − θ ) / σ 2 / k ∼ N ( 0 , 1 ) . z=(\hat{\bar{\theta}}-\theta) / \sqrt{\sigma^2 / k}\sim N(0,1). z=(θˉ^θ)/σ2/k N(0,1).
(ii)统计量 t = ( θ ˉ ^ − θ ) / v ( θ ˉ ^ ) ∼ t ( k − 1 ) . t=(\hat{\bar{\theta}}-\theta) / \sqrt{v(\hat{\bar{\theta}})}\sim t(k - 1). t=(θˉ^θ)/v(θˉ^) t(k1).
注:当k足够大时候 θ \theta θ ( 1 − α ) 100 % (1-\alpha) 100 \% (1α)100% 置信区间为 ( θ ˉ ^ − z α / 2 v ( θ ˉ ^ ) , θ ^ + z α / 2 v ( θ ˉ ^ ) ) , \left.\left(\hat{\bar{\theta}}-z_{\alpha / 2} \sqrt{v(\hat{\bar{\theta}})}, \hat{\theta}+z_{\alpha / 2} \sqrt{v(\hat{\bar{\theta}}}\right)\right), (θˉ^zα/2v(θˉ^) ,θ^+zα/2v(θˉ^ )),
其中 z α / 2 z_{\alpha / 2} zα/2 标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1) 的上侧 α / 2 \alpha / 2 α/2 分位点. 可以发现,这个定理其实是我们在学数理统计时的抽样分布.
前面我们介绍了随机组方差估计, 定理也表明其是无偏的, 但应该如何衡量方差估计的稳定性呢?还有分组数 k k k应该怎么选择呢?这里作者给出了一个常用的准则,便是变异系数:
CV ⁡ { v ( θ ˉ ^ ) } = [ Var ⁡ { v ( θ ˉ ^ ) } ] 1 / 2 / Var ⁡ { θ ˉ ^ } . \operatorname{CV}\{v(\hat{\bar{\theta}})\}=[\operatorname{Var}\{v(\hat{\bar{\theta}})\}]^{1 / 2} / \operatorname{Var}\{\hat{\bar{\theta}}\} . CV{v(θˉ^)}=[Var{v(θˉ^)}]1/2/Var{θˉ^}.
其中分子是该估计量的方差开根号,分母是其期望.
定理1.2. 设 θ ^ 1 , … , θ ^ k \hat{\theta}_1, \ldots, \hat{\theta}_k θ^1,,θ^k 独立同分布, v ( θ ˉ ^ ) v(\hat{\bar{\theta}}) v(θˉ^) 为之前定义.则
CV ⁡ { v ( θ ˉ ^ ) } = { β 4 ( θ ^ 1 ) − ( k − 3 ) / ( k − 1 ) k } 1 / 2 , \operatorname{CV}\{v(\hat{\bar{\theta}})\}=\left\{\frac{\beta_4\left(\hat{\theta}_1\right)-(k-3) /(k-1)}{k}\right\}^{1 / 2}, CV{v(θˉ^)}= kβ4(θ^1)(k3)/(k1) 1/2,
其中
β 4 ( θ ^ 1 ) = E { ( θ ^ 1 − μ ) 4 } [ E { ( θ ^ 1 − μ ) 2 } ] 2 , μ = E { θ ^ 1 } . \begin{aligned} \beta_4\left(\hat{\theta}_1\right) & =\frac{\mathrm{E}\left\{\left(\hat{\theta}_1-\mu\right)^4\right\}}{\left[\mathrm{E}\left\{\left(\hat{\theta}_1-\mu\right)^2\right\}\right]^2}, \\ \mu & =\mathrm{E}\left\{\hat{\theta}_1\right\} . \end{aligned} β4(θ^1)μ=[E{(θ^1μ)2}]2E{(θ^1μ)4},=E{θ^1}.
可以看出, CV 依赖于 β 4 ( θ ^ 1 ) \beta_4\left(\hat{\theta}_1\right) β4(θ^1) k k k, 当 k k k较小或者峰度 β 4 ( θ ^ 1 ) \beta_4\left(\hat{\theta}_1\right) β4(θ^1)较大时,CV 偏大. 因此,在选择组别数 k k k时,应当越多越好.

Jackknife

Jackknife方法最早由Quenouille(1949年)提出, 并用于估计量的纠偏(debias).
Tukey(1958年)提出,可以将各个子样本估计量合理地视为独立且同分布的随机变量,从而得到一个简单却实用的方差估计量.
首先介绍Jackknife方法的基本定义,设 Y 1 , … , Y n Y_1, \ldots, Y_n Y1,,Yn是来自总体 F ( y ) F(y) F(y)的独立同分布样本. 对于感兴趣的参数 θ \theta θ, 假设 θ ^ \hat{\theta} θ^ 是基于全部样本的估计量. 现在考虑将完整样本分成 k k k组,每组有 m m m个观测值,其中 n = m k n=mk n=mk, 对于每个 α = 1 , … , k \alpha=1,…,k α=1,,k,计算去掉第 α \alpha α组后剩余 m ( k − 1 ) m(k-1) m(k1)个观测样本的估计量 θ ^ ( − α ) \hat{\theta}_{(-\alpha)} θ^(α), 然后定义
θ ^ α = k θ ^ − ( k − 1 ) θ ^ ( − α ) . \hat{\theta}_\alpha=k \hat{\theta}-(k-1) \hat{\theta}_{(-\alpha)} . θ^α=kθ^(k1)θ^(α).
Quenouille提出的估计量便是便是这些 θ ^ α \hat{\theta}_\alpha θ^α的均值,
θ ^ j a c k = ∑ α = 1 k θ ^ α / k , \hat{\theta}_{jack}=\sum_{\alpha=1}^k \hat{\theta}_\alpha / k, θ^jack=α=1kθ^α/k,
注:当 k = n , m = 1 k = n,m = 1 k=n,m=1时, θ ^ ( − α ) \hat{\theta}_{(-\alpha)} θ^(α)便是去掉单个样本的情况.
相信大家看到这个 θ ^ α \hat{\theta}_\alpha θ^α形式的时候有点懵,这里我尝试用一个特殊的例子解释一下 θ ^ ( − α ) \hat{\theta}_{(-\alpha)} θ^(α)是如何达到纠偏效果的. 假设 k = n , m = 1 k = n,m = 1 k=n,m=1, θ ^ \hat{\theta} θ^估计 θ \theta θ具有一阶偏差,即
E { θ ^ } = θ + a 1 / n , E\{\hat{\theta}\}=\theta+a_1 / n , E{θ^}=θ+a1/n,
则有 E { θ ^ ( − α ) } = θ + a 1 / ( n − 1 ) , E\{\hat{\theta}_{(-\alpha)}\}=\theta+a_1 / (n - 1), E{θ^(α)}=θ+a1/(n1), 为了消去偏差带有 a 1 a_1 a1项的偏差, 自然可以通过作差,简单计算可以得到 E { n θ ^ − ( n − 1 ) θ ^ ( − α ) } = θ E\{n\hat{\theta} - (n - 1)\hat{\theta}_{(-\alpha)}\} = \theta E{nθ^(n1)θ^(α)}=θ, 即 n θ ^ − ( n − 1 ) θ ^ ( − α ) n\hat{\theta} - (n - 1)\hat{\theta}_{(-\alpha)} nθ^(n1)θ^(α) θ \theta θ的无偏估计, 此时纠偏的目的就达到了,这也可以简单解释Jackknife估计量是如何得到的.
按照Tukey的建议,将 θ ^ α \hat{\theta}_\alpha θ^α视为近似独立且同分布的随机变量, 此时Jackknife方差估计为:
v 1 ( θ ^ j a c k ) = ∑ α = 1 k ( θ ^ α − θ ^ j a c k ) 2 k ( k − 1 ) . v_1(\hat{{\theta}}_{jack})= \frac{\sum_{\alpha=1}^k\left(\hat{\theta}_\alpha-\hat{{\theta}}_{{jack}}\right)^2}{k(k-1)}. v1(θ^jack)=k(k1)α=1k(θ^αθ^jack)2.
这里 θ ^ j a c k \hat{{\theta}}_{jack} θ^jack也可以直接用 θ ^ \hat{\theta} θ^代替,
v 2 ( θ ^ j a c k ) = ∑ α = 1 k ( θ ^ α − θ ^ ) 2 k ( k − 1 ) . v_2(\hat{{\theta}}_{jack})= \frac{\sum_{\alpha=1}^k\left(\hat{\theta}_\alpha-\hat{{\theta}}\right)^2}{k(k-1)}. v2(θ^jack)=k(k1)α=1k(θ^αθ^)2.
这两个方差估计的关系是
v 2 ( θ ^ j a c k ) = v 1 ( θ ^ j a c k ) + ( θ ^ − θ ^ j a c k ) 2 / ( k − 1 ) v_2(\hat{{\theta}}_{jack}) = v_1(\hat{\theta}_{jack}) + (\hat{\theta} - \hat{\theta}_{jack})^2 / (k - 1) v2(θ^jack)=v1(θ^jack)+(θ^θ^jack)2/(k1)
接下来简单介绍一些Jackknife方法的性质.
许多重要参数可以表示为 θ = g ( μ ) \theta=g(\mu) θ=g(μ)的形式,其中 μ \mu μ表示期望 E { Y i } = μ \mathrm{E}\left\{Y_i\right\}=\mu E{Yi}=μ。尽管
Y ˉ = n − 1 ∑ j = 1 n Y j \bar{Y}=n^{-1} \sum_{j=1}^n Y_j Yˉ=n1j=1nYj
μ \mu μ的无偏估计量,但 θ ^ = g ( Y ˉ ) \hat{\theta}=g(\bar{Y}) θ^=g(Yˉ)通常是 θ = g ( μ ) \theta=g(\mu) θ=g(μ)的有偏估计量. Quenouille给出的估计量形式为
θ ^ j a c k = k g ( Y ˉ ) − ( k − 1 ) k − 1 ∑ α = 1 k g ( Y ˉ ( − α ) ) , \hat{{\theta}}_{jack}=k g(\bar{Y})-(k-1) k^{-1} \sum_{\alpha=1}^k g\left(\bar{Y}_{(-\alpha)}\right), θ^jack=kg(Yˉ)(k1)k1α=1kg(Yˉ(α)),
其中 Y ˉ ( − α ) \bar{Y}_{(-\alpha)} Yˉ(α)表示去掉第 α \alpha α组观测值后 m ( k − 1 ) m(k−1) m(k1)个观测值的样本均值.
下面的定理保证了其渐近性结果.
定理2.1. 令 { Y j } \left\{Y_j\right\} {Yj}是独立同分布的随机变量序列,其均值为 μ \mu μ,方差为 0 < σ 2 < ∞ 0<\sigma^2<\infty 0<σ2<.令 g ( ⋅ ) g(\cdot) g()是定义在实数域上的函数,在 μ \mu μ的邻域内具有有界二阶导数。那么, k → ∞ , k 1 / 2 ( θ ^ j a c k − θ ) k \rightarrow \infty, k^{1 / 2}(\hat{{\theta}}_{jack}-\theta) k,k1/2(θ^jackθ)在分布上收敛于均值为零,方差为 σ 2 { g ′ ( μ ) } 2 \sigma^2\left\{g^{\prime}(\mu)\right\}^2 σ2{g(μ)}2的正态分布随机变量,其中 g ′ ( μ ) g^{\prime}(\mu) g(μ) g ( ⋅ ) g(\cdot) g() μ \mu μ处的一阶导数。
该定理保证了参数一般形式下的渐近性结果,极限分布有点像我们后面要介绍的Delta方法.
最后又是关于分组数 k k k的选择了,主要有两个考量因素:计算成本和估计量的准确性, k k k越大,计算成本越大,精度更高; k k k越小,计算成本越小,但准确性可能较差.在大数据集上,在选择时希望在计算成本和精确度之间找到平衡.
最后这里仅仅介绍了Jackknife在方差估计方面的结果,有兴趣的同学可以了解他的纠偏理论.

Bootstrap

接下来介绍大名鼎鼎的Bootstrap方法.在前面小节中,我们讨论了几种基于重复的方差估计方法, Bootstrap核心思想是有放回抽样,也是所谓的重复方法,那么Bootstrap与其他复制方法有何不同?在最简单的情况下,随机组是基于样本量为 n / k n/k n/k的重复;Jackknife方法则使用样本量为 n − 1 n-1 n1的重复。相比之下,Bootstrap使用潜在样本量为 n ⋆ {n}^{\star} n的任何重复.
现考虑常规的Bootstrap方法,设 Y 1 , Y 2 , ⋯   , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,,Yn是来自分布函数为 F F F总体的独立同分布样本,设 θ \theta θ是感兴趣的未知参数, θ ^ \hat{\theta} θ^是基于样本对 θ \theta θ的估计,我们希望能估计 θ ^ \hat{\theta} θ^的方差,即 V a r ( θ ^ ) \mathrm{Var}(\hat{\theta}) Var(θ^). Bootstrap方法步骤如下:
(i) 考虑一个较大的整数 A A A, 对于 α = \alpha= α= 1 , … , A 1, \ldots, A 1,,A,每次从 { Y 1 , Y 2 , ⋯   , Y n } \{Y_1,Y_2,\cdots,Y_n\} {Y1,Y2,,Yn}进行 n ⋆ {n}^{\star} n次有放回抽样,得到 Y α 1 ∗ , … , Y α n ∗ Y_{\alpha 1}^*, \ldots, Y_{\alpha n}^* Yα1,,Yαn;
(ii)对每次有放回抽样得到的样本,计算相应的估计量 θ ^ α ∗ \hat{\theta}_\alpha^* θ^α;
(iii)计算 θ ^ α ∗ \hat{\theta}_\alpha^* θ^α之间的方差:
v ( θ ^ ) = 1 A − 1 ∑ α = 1 A ( θ ^ α ∗ − θ ^ ∗ ) 2 , θ ^ ∗ = 1 A ∑ α = 1 A θ ^ α ∗ . \begin{gathered} v(\hat{\theta})=\frac{1}{A-1} \sum_{\alpha=1}^A\left(\hat{\theta}_\alpha^*-\hat{\theta}^*\right)^2, \\ \hat{\theta}^*=\frac{1}{A} \sum_{\alpha=1}^A \hat{\theta}_\alpha^* . \end{gathered} v(θ^)=A11α=1A(θ^αθ^)2,θ^=A1α=1Aθ^α.
自然地, v ( θ ^ ) v(\hat{\theta}) v(θ^)便可以作为估计量 θ ^ \hat{\theta} θ^的方差估计,一般取 n ⋆ = n {n}^{\star} = n n=n, 大佬Efron 和 Tibshirani (1986) 指出 A A A取50到200能满足大多数情况,但是我看好像一般取1000比较多? 毕竟 A A A多多益善.
Bootstrap是非常实用的Model-Free非参方法,除了估方差之外,还可以估偏差,估分布,算置信区间,做假设检验等等,这里只是简单介绍一下估方差的基本用法,后续可以写篇文章专门介绍Bootstrap.

Taylor展开线性近似

在很多情况下,估计量可能非线性的,一些常见例子比如比值、相关系数、回归系数等都是这种情况. 非线性估计量的方差通常没有显性表达式, 一种估计非线性估计量方差的方法是利用观测值的线性函数来近似, 基于线性估计量, 就可以应用特定的方差估计方法,这虽然可能会导致一定偏差, 但通常是相合的.
如何进行线性近似?可以考虑一阶Taylor展开,在此之前先介绍一些概率意义下阶的概念.
定义. 对于一列 p p p维随机向量 Y n \mathbf{Y}_n Yn,实数列 r n r_n rn,若 ∀ ε > 0 \forall \varepsilon>0 ε>0,存在实正数 M ε M_{\varepsilon} Mε,满足 P { ∣ Y j n ∣ ≥ M ε r n } ≤ ε , j = 1 , … , p , ∀ n ∈ N + , P\left\{\left|Y_{j n}\right| \geq M_{\varepsilon} r_n\right\} \leq \varepsilon, \quad j=1, \ldots, p, \quad \forall n \in \mathbb{N}^{+} , P{YjnMεrn}ε,j=1,,p,nN+,
则称
Y n = O p ( r n ) . \mathbf{Y}_n=O_p\left(r_n\right). Yn=Op(rn).
这个定义主要表明一个随机向量的阶由其每个维度决定.
考虑 g ( Y n ) g\left(\mathbf{Y}_n\right) g(Yn) g ( a ) g(\mathbf{a}) g(a)点的泰勒展开:
g ( Y n ) = g ( a ) + a ⊤ ∇ g ( a ) + R n ( Y n , a ) , g\left(\mathbf{Y}_n\right)=g(\mathbf{a})+ \mathbf{a}^{\top}\nabla g(\mathbf{a}) +R_n\left(\mathbf{Y}_n, \mathbf{a}\right), g(Yn)=g(a)+ag(a)+Rn(Yn,a),
其中余项
R n ( Y n , a ) = ∑ j = 1 p ∑ i = 1 p 1 2 ! ∂ 2 g ( a ¨ ) ∂ y j ∂ y i ( Y j n − a j ) ( Y i n − a i ) , R_n\left(\mathbf{Y}_n, \mathbf{a}\right)=\sum_{j=1}^p \sum_{i=1}^p \frac{1}{2!} \frac{\partial^2 g(\ddot{\mathbf{a}})}{\partial y_j \partial y_i}\left(Y_{j n}-a_j\right)\left(Y_{i n}-a_i\right), Rn(Yn,a)=j=1pi=1p2!1yjyi2g(a¨)(Yjnaj)(Yinai),
∂ g ( a ) / ∂ y j \partial g(\mathbf{a}) / \partial y_j g(a)/yj g ( y ) g(\mathbf{y}) g(y) 关于 y \mathbf{y} y 的第 j j j 个分量在 y = a ¨ \mathbf{y}=\ddot{\mathbf{a}} y=a¨处的偏导数, y = a ¨ \mathbf{y}=\ddot{\mathbf{a}} y=a¨ g ( y ) g(\mathbf{y}) g(y) 关于 y j y_j yj y i y_i yi a ¨ \ddot{\mathbf{a}} a¨ 处的二阶偏导数,而 a ¨ \ddot{\mathbf{a}} a¨是连接 Y n \mathbf{Y}_n Yn a \mathbf{a} a的线段上的某一点.
定理4.1 令 Y n = a + O p ( r n ) \mathbf{Y}_n=\mathbf{a}+O_p\left(r_n\right) Yn=a+Op(rn), 且 r n → 0 , n → ∞ r_n \rightarrow 0, n \rightarrow \infty rn0,n,则 g ( Y n ) g\left(\mathbf{Y}_n\right) g(Yn) 可以由上式的泰勒展开形式表示,并且余项 R n ( Y n , a ) = O p ( r n 2 ) R_n\left(\mathbf{Y}_n, \mathbf{a}\right)=O_p\left(r_n^2\right) Rn(Yn,a)=Op(rn2).
注:该定理给出了 Y n \mathbf{Y}_n Yn的余项和泰勒展开余项 R n ( Y n , a ) R_n\left(\mathbf{Y}_n, \mathbf{a}\right) Rn(Yn,a)的关系,
在该定理基础上,很容易得到下面的定理.
定理4.2.令 Y n = a + O p ( r n ) , \mathbf{Y}_n=\mathbf{a}+O_p\left(r_n\right), Yn=a+Op(rn), 其中 r n → O , n → ∞ r_n \rightarrow O, n \rightarrow \infty rnO,n,令
E { Y n } = a , E { ( Y n − a ) ⊤ ( Y n − a ) } = Σ n < ∞ . \begin{aligned} \mathrm{E}\left\{\mathbf{Y}_n\right\} & =\mathbf{a}, \\ \mathrm{E}\left\{\left(\mathbf{Y}_n-\mathbf{a}\right)^{\top}\left(\mathbf{Y}_n-\mathbf{a}\right)\right\} & ={\Sigma}_n<\infty . \end{aligned} E{Yn}E{(Yna)(Yna)}=a,=Σn<∞.

E { ( g ( Y n ) − g ( a ) ) 2 } = ∇ g ( a ) ⊤ Σ n ∇ g ( a ) + O p ( r n 3 ) , {\mathrm{E}}\left\{\left(g\left(\mathbf{Y}_n\right)-g(\mathbf{a})\right)^2\right\}=\nabla g(\mathbf{a})^{\top} {\Sigma}_n \nabla g(\mathbf{a})+O_p\left(r_n^3\right), E{(g(Yn)g(a))2}=g(a)Σng(a)+Op(rn3),
Y n \mathbf{Y}_n Yn是一列独立同分布随机变量的均值时,可以得到更强的结论
定理4.2.若 Y n \mathbf{Y}_n Yn是一列独立同分布随机变量的均值,其中每个随机变量都是 p p p维的,期望为 a \mathbf{a} a ,协方差矩阵为 Σ \Sigma Σ,且四阶矩存在, g ( y ) \mathbf{g}(\mathbf{y}) g(y) a \mathbf{a} a的的邻域内具有连续三阶导数的函数,则
E { ( g ( Y n ) − g ( a ) ) 2 } = 1 n d Σ n d ′ + O p ( n − 1 2 ) , {\mathrm{E}}\left\{\left(g\left(\mathbf{Y}_n\right)-g(\mathbf{a})\right)^2\right\}= \frac{1}{n}\mathbf{d} {\Sigma}_n \mathbf{d}^{\prime}+O_p\left(n^{-\frac{1}{2}}\right), E{(g(Yn)g(a))2}=n1dΣnd+Op(n21),
注:这个定理很好地解决了 g ( Y n ) \mathbf{g}\left(\mathbf{Y}_n\right) g(Yn)的方差估计问题,即只需要知道 Y n \mathbf{Y}_n Yn的一阶矩和二阶矩信息,然后求 g \mathbf{g} g的梯度就可以了. 看到这里,可以发现 D e l t a Delta Delta方法和这个定理结果非常类似,不同点主要在于 D e l t a Delta Delta方法在渐近正态假设下,不仅可以得到方差估计,还可以得到渐近正态的结果.
Delta方法. 设 n ( T n − θ ) → d N p ( 0 , Σ ( θ ) ) \sqrt{\mathrm{n}}\left(\boldsymbol{T}_{\mathrm{n}}-\boldsymbol{\theta}\right) \xrightarrow{\mathrm{d}} \mathrm{N}_{\mathrm{p}}(\mathbf{0}, \Sigma(\boldsymbol{\theta})) n (Tnθ)d Np(0,Σ(θ)). 令 g : R p ↦ R m \boldsymbol{g}: \mathbb{R}^{\mathrm{p}} \mapsto \mathbb{R}^{\mathrm{m}} g:RpRm θ \boldsymbol{\theta} θ 可微且有非零梯度 ∇ g ( θ ) \nabla \mathrm{g}(\boldsymbol{\theta}) g(θ) ,则 n { g ( T n ) − g ( θ ) } → d N m ( 0 , ∇ g ( θ ) ⊤ Σ ( θ ) ∇ g ( θ ) ) \sqrt{\mathrm{n}}\left\{\boldsymbol{g}\left(\boldsymbol{T}_{\mathrm{n}}\right)-\boldsymbol{g}(\boldsymbol{\theta})\right\} \xrightarrow{\mathrm{d}} \mathrm{N}_{\mathrm{m}}\left(\mathbf{0}, \nabla \boldsymbol{g}(\boldsymbol{\theta})^{\top} \Sigma(\boldsymbol{\theta}) \nabla \boldsymbol{g}(\boldsymbol{\theta})\right) n {g(Tn)g(θ)}d Nm(0,g(θ)Σ(θ)g(θ)).
注:Delta方法的证明也是通过泰勒展开,感兴趣的同学可以尝试证明一下.
下面我们考虑一些具体例子,试试如何用泰勒展开来估方差.
例1.
X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn是来自同一总体独立同分布的样本, Y 1 , Y 2 , ⋯   , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,,Yn亦是来自同一总体独立同分布的样本.对于估计量 θ ^ = X ˉ / Y ˉ \hat{\theta}=\bar{X} / \bar{Y} θ^=Xˉ/Yˉ,令 g ( x , y ) = x / y g(x,y) = x / y g(x,y)=x/y,则 ∇ g ( x , y ) ⊤ = ( 1 / y , − x / y 2 ) \nabla g(x,y) ^{\top} = (1 / y,- x / y^2) g(x,y)=(1/y,x/y2).令 a = ( X ˉ , Y ˉ ) ⊤ \mathbf{a} = (\bar{X} , \bar{Y})^{\top} a=(Xˉ,Yˉ),对于 Σ = C o v ( a , a ) \Sigma = \mathrm{Cov(\mathbf{a},\mathbf{a})} Σ=Cov(a,a),可知 σ 11 = V a r ( X ˉ ) \sigma_{11} = \mathrm{Var}(\bar{X}) σ11=Var(Xˉ), σ 12 = σ 21 = C o v ( X ˉ , Y ˉ ) \sigma_{12} = \sigma_{21} = \mathrm{Cov}(\bar{X},\bar{Y}) σ12=σ21=Cov(Xˉ,Yˉ), σ 22 = V a r ( Y ˉ ) \sigma_{22} = \mathrm{Var}(\bar{Y}) σ22=Var(Yˉ),这里的 σ i j \sigma_{ij} σij都可以用样本 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn Y 1 , Y 2 , ⋯   , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,,Yn估出来,记为 σ i j ^ \hat{\sigma_{ij}} σij^,从而可以得到 Σ ^ \hat{\Sigma} Σ^.此时
v ( θ ^ ) = ∇ g ( a ) ⊤ Σ ^ ∇ g ( a ) = ( 1 / Y ˉ , − X ˉ / Y ˉ 2 ) Σ ^ ( 1 / Y ˉ , − X ˉ / Y ˉ 2 ) ⊤ = σ ^ 11 Y ˉ 2 + σ ^ 22 X ˉ 2 Y ˉ 4 − 2 σ ^ 12 X ˉ Y ˉ 3 . \begin{aligned} v(\hat{\theta}) &= \nabla g(\mathbf{a}) ^{\top} \hat{\Sigma} \nabla g(\mathbf{a}) \\ &= (1/\bar{Y},-\bar{X}/\bar{Y}^2)\hat{\Sigma} (1/\bar{Y},-\bar{X}/\bar{Y}^2)^{\top}\\ &= \frac{{\hat{\sigma}}_{11}}{\bar{Y}^2} + \frac{\hat{\sigma}_{22} \bar{X}^2}{\bar{Y}^4} - \frac{2\hat{\sigma}_{12}\bar{X}}{\bar{Y}^3}. \end{aligned} v(θ^)=g(a)Σ^g(a)=(1/Yˉ,Xˉ/Yˉ2)Σ^(1/Yˉ,Xˉ/Yˉ2)=Yˉ2σ^11+Yˉ4σ^22Xˉ2Yˉ32σ^12Xˉ.
其他类似估计量,如 X ˉ Y ˉ , X ˉ 1 / Y ˉ 1 − X ˉ 2 / Y ˉ 2 , exp ⁡ { X ˉ } \bar{X}\bar{Y},\bar{X}_1 / \bar{Y}_1 - \bar{X}_2 / \bar{Y}_2,\exp\{\bar{X}\} XˉYˉ,Xˉ1/Yˉ1Xˉ2/Yˉ2,exp{Xˉ},甚至 ( X 1 X 2 ⋯ X N ) 1 / N \left(X_1 X_2 \cdots X_N\right)^{1 / N} (X1X2XN)1/N等,都可以利用同样方法估方差.

总结

本文主要介绍了几种常用的方差估计方法,包括Random Groups,Jacknife,Bootstrap,Delta方法等,Random Groups其实和我们常用的方差公式差不多.Jacknife和Bootstrap在样本量较大时计算量可能有点大,相对而言,Delta方法普适性较强,可以很好地处理非线性估计量的方差问题,后续将介绍一些降方差的方法和Bootstrap原理.

参考文献:Wolter K M. Introduction to variance estimation[M]. New York: Springer, 2007.

  • 22
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值