分布估计算法java_数理统计8：点估计的有效性、一致最小方差无偏估计(UMVUE)、零无偏估计法...

最新推荐文章于 2023-12-07 21:40:59 发布

佛渡潜行者

最新推荐文章于 2023-12-07 21:40:59 发布

阅读量2.3k

点赞数 4

文章标签：分布估计算法java

本文链接：https://blog.csdn.net/weixin_42388176/article/details/114750739

版权

本文深入探讨了点估计的有效性，聚焦于无偏估计的均方误差（MSE）和一致最小方差无偏估计（UMVUE）。通过实例分析了如何使用条件期望法改进无偏估计量，并介绍了验证UMVUE的零无偏估计法，特别是对正态分布参数的UMVUE验证。文章揭示了UMVUE的重要性和在实际问题中的应用挑战，为进一步研究提供了理论基础。

摘要由CSDN通过智能技术生成

在之前的学习中，主要基于充分统计量给出点估计，并且注重于点估计的无偏性与相合性。然而，仅有这两个性质是不足的，无偏性只能保证统计量的均值与待估参数一致，却无法控制统计量可能偏离待估参数的程度；相合性只能在大样本下保证统计量到均值的收敛性，但却对小样本情形束手无策。今天我们将注重于统计量的有效性，即无偏统计量的抽样分布的方差。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：一致最小方差无偏估计

首先考虑这样的问题：如何刻画一个统计量的有效程度？注意到，一个统计量的取值既可能高于待估参数，亦可能低于待估参数，要综合考虑统计量对待估参数误差，需要用平方均衡这种双向偏差，因此，提出均方误差的概念：若\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的估计量，则\(\hat g(\boldsymbol{X})\)的均方误差定义为

\[\mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2. \]

对于确定的统计量\(\hat g(\boldsymbol{X})\)而言，\(\mathrm{MSE}(\hat g(\boldsymbol{X}))\)是\(\theta\)的函数。显然，一个统计量的均方误差越小，它就越在待估参数真值附近环绕，由此，用统计量的一次观测值作为待估参数的估计就有着越大的把握。

如果对于\(g(\theta)\)的两个估计量\(\hat g_1(\boldsymbol{X})\)和\(\hat g_2(\boldsymbol{X})\)，恒有\(\mathrm{MSE}(\hat g_1(\boldsymbol{X}))\le \mathrm{MSE}(\hat g_2(\boldsymbol{X}))\)，且严格不等号至少在某个\(\theta\)处成立，就称\(\hat g_1(\boldsymbol{X})\)在均方误差准则下优于\(\hat g_2(\boldsymbol{X})\)。如果我们能找到均方误差最小的统计量\(\hat g(\boldsymbol{X})\)，就相当于找到了均方误差准则下的最优统计量。

不过，均方误差是\(\theta\)的函数，这就导致了某些统计量在\(\theta=\theta_1\)时均方误差小，在\(\theta=\theta_2\)时均方误差大，一致最小均方误差估计量便不存在，需要增加约束条件，找到更可能存在的“最优”。

基于此，我们提出一致最小方差无偏估计(UMVUE)的概念，它将\(g(\theta)\)的估计量限制在了无偏估计之中，这使得UMVUE的存在可能性得以提高。并且，由于\(\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta)\)，所以

\[\mathrm{MSE}(\hat g(\boldsymbol{X}))=\mathbb{E}(\hat g(\boldsymbol{X})-g(\theta))^2=\mathbb{E}[\hat g(\boldsymbol{X})-\mathbb{E}(\hat g(\boldsymbol{X}))]^2=\mathbb{D}(\hat g(\boldsymbol{X})), \]

即无偏估计的均方误差就是无偏估计的方差。

不过首先要提出的是，UMVUE往往比一致最小均方误差估计量更容易存在，但依然不是所有参数都存在UMVUE的，并且，甚至可能有的参数根本不存在无偏估计。

以下是一个典型的不存在无偏估计的例子：\(X\sim B(n,p)\)，参数\(g(p)=1/p\)的无偏估计不存在。书上给出的证明过程如下：

首先，无偏估计不依赖于样本容量，故假设\(n=1\)。若\(g(p)\)有无偏估计\(\hat g(X)\)，则由于\(X=0,1,\cdots,n\)，故\(\hat g(X)\)的取值只可能是\(a_0,a_1,\cdots,a_n\)，可以写出其期望为

\[\mathbb{E}(\hat g(X))=\sum_{j=0}^n a_jC_n^jp^j(1-p)^{n-j}, \]

当\(\hat g(X)\)为无偏估计时，成立以下等式：

\[\sum_{j=0}^na_jC_n^jp^j(1-p)^{n-j}=\frac{1}{p}, \]

即对于某个多项式\(f\in\mathcal P_{n+1}(\mathbb{R})\)，有

\[f(p)=0,\quad \forall p\in(0,1). \]

显然，要使上式恒成立，除非\(f\)为零多项式。但\(f\)并不是零多项式，这意味着\(f(p)=0\)只会在至多\(n+1\)个点处成立，这与无偏性要求矛盾。因此，\(g(p)=1/p\)不存在无偏估计。

我们将存在无偏估计的待估参数称为可估参数，因此UMVUE仅对可估参数作讨论。我们的任务，就是用一定的方法，找到可估参数的UMVUE。

Part 2：改进无偏估计量

无偏估计量有许多，比如正态分布\(N(\mu,\sigma^2)\)中，\(\mu\)的无偏估计就有\(X_1,2X_2-X_1,\bar X\)等。充分统计量的条件期望法是改进无偏估计量的一个典型方式，它基于如下的定理：设\(T=T(\boldsymbol{X})\)是一个充分统计量，\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的一个普通无偏估计量，则\(h(T)=\mathbb{E}[\hat g(\boldsymbol{X})|T]\)是\(g(\theta)\)的无偏估计，且

\[\mathbb{D}(h(T))\le \mathbb{D}(\hat g(\boldsymbol{X})),\quad \forall \theta\in\Theta. \]

等号成立当且仅当\(\hat g(\boldsymbol{X})=h(T)\)是均方条件下成立的。它的证明不是很有必要掌握，权当了解。

因为\(T\)是\(g(\theta)\)的充分统计量，故\(\mathbb{E}(\hat g(\boldsymbol{X})|T)\)与待估参数\(g(\theta)\)无关，可以作为统计量，即

\[h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T) \]

是合理定义的统计量。下证其无偏性，由全期望公式，有

\[\mathbb{E}(h(T))=\mathbb{E}[\mathbb{E}(\hat g(\boldsymbol{X})|T)]=\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta). \]

最后证明其比\(\hat g(\boldsymbol{X})\)更有效，利用一个常用的拆分技巧，得到

\[\begin{aligned} \mathbb{D}(\hat g(\boldsymbol{X}))&=\mathbb{D}[\hat g(\boldsymbol{X})-h(T)+h(T)]\\ &=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))+2\mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T)), \end{aligned} \]

然后证明交叉项为0，这里需要再次用到全期望公式，有

\[\begin{aligned} &\quad \mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T))\\ &=\mathbb{E}[h(T)-g(\theta)][\hat g(\boldsymbol{X})-h(T)]\\ &=\mathbb{E}[\mathbb{E}[(h(T)-g(\theta))(\hat g(\boldsymbol{X})-h(T))|T]]\\ &=\mathbb{E}[(h(T)-g(\theta))(\mathbb{E}(\hat g(\boldsymbol{X})|T)-h(T)]\\ &=0. \end{aligned} \]

最后的等号是因为\(h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)\)，于是代回就得到

\[\mathbb{D}(\hat g(\boldsymbol{X}))=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))\ge \mathbb{D}(h(T)). \]

等号成立当且仅当\(\mathbb{D}(\hat g(\boldsymbol{X})-h(T))^2=\mathbb{E}(\hat g(\boldsymbol{X})-h(T))^2=0\)。

这个定理的重要意义在于，如果给定的无偏估计量不是充分统计量的函数，则可以通过条件期望法，将其转变成一个充分统计量的函数作为新的统计量，并且新的统计量总是更有效的。此外，这也对我们寻找UMVUE提出启示：UMVUE一定是充分统计量的函数。如果不然，则可以通过对充分统计量求期望，得到一个更有效的统计量。

不过，改进后的充分统计量函数，尽管是更为有效的参数估计，但却并不一定是UMVUE，下面的定理将给出一个验证点估计是否为UMVUE的方法。

Part 3：零无偏估计法

零无偏估计法是用于判断某个估计量是否为UMVUE的方法，为此，首先要提出什么是零无偏估计。顾名思义，零无偏估计即零的无偏估计量，对某个统计量\(l(\boldsymbol{X})\)，如果有\(\mathbb{E}(l(\boldsymbol{X}))=0\)，则称\(l(\boldsymbol{X})\)是一个零无偏估计量；如果统计量\(T\)是待估参数\(g(\theta)\)的充分统计量，且\(\mathbb{E}(h(T))=0\)，则\(h(T)\)也称为\(g(\theta)\)的零无偏估计量。

零无偏估计法的思想、证明过程都与上述的充分统计量条件期望法类似。如果\(\hat g(\boldsymbol{X})\)是UMVUE，则对于任意其他无偏估计\(\hat g_1(\boldsymbol{X})\)，都可以视为\(\hat g_1(\boldsymbol{X})=\hat g(\boldsymbol{X})+l(\boldsymbol{X})\)，显然这里\(\mathbb{E}(l(\boldsymbol{X}))=0\)，要使\(\hat g_1(\boldsymbol{X})\)的方差大于\(\hat g(\boldsymbol{X})\)，可以进行拆分，即

\[\mathbb{D}(\hat g_1(\boldsymbol{X}))=\mathbb{D}(\hat g(\boldsymbol{X}))+\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X})). \]

如果最后的协方差项为0，则必有\(\mathbb{D}(\hat g_1(\boldsymbol{X}))\ge \mathbb{D}(\hat g(\boldsymbol{X}))\)。综合以上讨论，给出零无偏估计法验证UMVUE的方式。

设\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的一个无偏估计，\(\mathbb{D}(\hat g(\boldsymbol{X}))

\[\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=0, \]

则\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的UMVUE。

如果\(\hat g(\boldsymbol{X})\)满足与任何零无偏估计无关，则它是UMVUE，这是一个充分条件。但反之，它也是一个必要条件，即UMVUE必定与任何零无偏估计量无关。

如果不然，设\(\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=b(\theta)\ne 0\)，则可以假设\(\mathbb{D}(l(\boldsymbol{X}))=a^2(\theta)>0\)。现在固定\(\theta=\theta_0\)为常数，并设\(a(\theta_0)=a,b(\theta_0)=b\)，只要

\[\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=a^2(\theta_0)+2b(\theta_0)=a^2+2b<0, \]

就能找到一个在\(\theta=\theta_0\)处，比\(\hat g(\boldsymbol{X})\)方差更小的无偏估计，那么\(\hat g(\boldsymbol{X})\)就不是UMVUE。注意到，如果\(l(\boldsymbol{X})\)是零无偏估计，则\(\forall k\ne 0\)，\(kl(\boldsymbol{X})\)也是零无偏估计，就有

\[\mathbb{D}(kl(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),kl(\boldsymbol{X}))=k^2a^2+2bk, \]

取\(k\)值为

\[\left\{\begin{array}l -\frac{2b}{a}0; \\ 0

就使得\(k^2a^2+2bk<0\)成立，于是

\[\hat g_1(\boldsymbol{X})\xlongequal{def}\hat g(\boldsymbol{X})+kl(\boldsymbol{X}) \]

是\(g(\theta)\)的无偏估计量，且当\(\theta=\theta_0\)时\(\mathbb{D}(\hat g_1(\boldsymbol{X}))

有了这个方法，我们可以验证一些常用的充分统计量是UMVUE了。现以正态分布\(N(\mu,\sigma^2)\)的充分统计量\((\bar X,S^2)\)为例，它们是否是UMVUE呢？如果直接验证会稍显繁琐，对零无偏估计法稍加修改可以得到以下的推论：

如果\(T\)是充分统计量且\(h(T)\)是\(g(\theta)\)的一个无偏估计，对任何\(\theta\in\Theta\)与一切零无偏估计量\(\delta (T)\)都有

\[\mathrm{Cov}(h(T),\delta(T))=\mathbb{E}(h(T)\delta(T))=0, \]

则\(h(T)\)是UMVUE。

这里只是将样本的函数改成了充分统计量的函数，以上证明过程是依然适用的。并且，由于UMVUE一定是充分统计量的函数，因此这个推论会更有应用意义。

对于正态分布而言，充分统计量可以视为

\[T_1=\frac{1}{n}\sum_{j=1}^n X_j,\quad T_2=\sum_{j=1}^n (X_j-\bar X)^2,\\ T_1\sim N\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{T_2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow T_2\sim\Gamma\left(\frac{n-1}{2},\frac{1}{2\sigma^2} \right). \]

由于\(T_1,T_2\)独立，所以其联合密度函数容易写出，有

\[f_1(t_1)=\frac{\sqrt{n}}{\sqrt{2\pi \sigma^2}}\exp\left\{-\frac{n(t_1-\mu)^2}{2\sigma^2} \right\},\\ f_2(t_2)=\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})\sigma^{n-1}}t_2^{\frac{n-1}{2}-1}e^{-\frac{t_2}{2\sigma^2}},\\ f(t_1,t_2)=\frac{C}{\sigma^n}t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}. \]

如果\(\delta(t_1,t_2)\)是零均值的，则有

\[\mathbb{E}(\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^\infty \delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}\mathrm{d}t_1\mathrm{d}t_2=0. \]

令\(\exp\)部分为\(H(\mu,\sigma^2)\)，也就是我们获得了这个关键的等式(它是证明的核心)：

\[\int_{-\infty}^\infty\delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0 \]

要验证\(\mathbb{E}(t_1,\delta(t_1,t_2))\)与\(\mathbb{E}(t_2,\delta(t_1,t_2))\)是否为0，先从第一个入手，写出其表达式为

\[\mathbb{E}(t_1,\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^{\infty}\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2. \]

要验证\(\mathbb{E}(t_1,\delta(t_1,t_2))=0\)，实际上就是验证

\[\int_{-\infty}^\infty \delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. \]

不要被这个庞然大物吓到，事实上我们唯一的条件只有\(\mathbb{E}(\delta(t_1,t_2))=0\)所对应的等式，注意到上面的等式无论\(\mu,\sigma\)的真值是多少都应该成立，所以是\(\mu,\sigma\)的二元函数，我们能做的事也很有限——对参数求导。这里涉及到了求导与积分是否可交换的问题，我们姑且不考虑，默认视为可交换即可，由于\(\sigma^2\)很复杂，所以对\(\mu\)求导即可。唯一含有\(\mu\)的项是积分号中间的\(\exp\)部分，其导数为

\[H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2), \]

于是就有

\[\frac{\partial \mathbb{E}(\delta_1,\delta_2)}{\partial\mu}=\frac{C}{\sigma^n}\int_{-\infty}^\infty\delta(t_1,t_2)t_2^{\frac{n-1}{2}-1}\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0, \]

将求导后得到的式子展开，提取出参数并代入上面的结果，就有

\[\int_{-\infty}^\infty\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma)\mathrm{d}t_1\mathrm{d}t_2=0, \]

也就说明了\(\mathbb{E}(t_1,\delta(t_1,t_2))=0\)，由\(\delta(t_1,t_2)\)的任意性以及\(T_1\)的无偏性，可知\(\bar X\)是\(\mu\)的UMVUE。

下一步证明\(T_2/(n-1)\)是\(\sigma^2\)的UMVUE，也就是证明\(\mathbb{E}(t_2,\delta(t_1,t_2))=0\)，同样写出需要验证的等式为

\[\int_{-\infty}^\infty\delta(t_1,t_2) t_2^{\frac{n-1}{2}}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. \]

现在我们尝试将关键的等式对\(\sigma^2\)求导，同样，先计算\(H\)对\(\sigma^2\)的偏导，有

\[H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \sigma^2}=\frac{n(t_1-\mu)^2+t_2}{2\sigma^4}H(\mu,\sigma^2), \]

可以看到，这里除了出现已经确认代入能为0的常数项和\(t_1\)外，还多了\(t_1^2\)与\(t_2\)的项，\(t_2\)就是我们的目标，所以再处理一下\(t_1^2\)这一项。显然，对\(\mu\)求导一次能得到\(t_1\)的一次项，那么对\(\mu\)求二阶导，就能得到\(t_1^2\)项，所以

\[\frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),\\ \frac{\partial^2H(\mu,\sigma^2)}{\partial\mu^2}=H(\mu,\sigma^2)\left[\frac{4n^2(t_1-\mu)^2}{\sigma^4}-\frac{2n}{\sigma^2} \right]. \]

这样就出现了需要的\(t_1^2\)项，剩下的工作只有繁琐的代入计算而已，我们实际上已经完成了证明的主要步骤，因此\(S^2\)也是\(\sigma^2\)的UMVUE。

对于一元连续或离散情形下UMVUE的验证，难度要比二元情形下小得多，因此读者只要掌握了正态分布的零无偏估计法验证，理论上其他UMVUE的验证便不成问题。读者可以自己尝试其他UMVUE的验证。

今天，我们提出了UMVUE的概念，重点在于利用充分统计量改进普通的无偏估计，并且利用零无偏估计法验证某个充分统计量函数是否是UMVUE。但是，我们并没有给出寻找UMVUE的方法，如果依靠感觉没有方向地寻找再一个个验证是否为UMVUE，是十分繁琐且难以成功的。比如对于\(B(1,p)\)的参数估计\(g(p)=p(1-p)\)，如果用先猜想后验证的方法来寻找UMVUE，甚至没有入手点。

因此，明天我们将学习寻找UMVUE的方法，并介绍一个被我们忽略已久的概念——指数族。