数理统计复习笔记三——点估计

最新推荐文章于 2021-10-16 20:35:41 发布

原创最新推荐文章于 2021-10-16 20:35:41 发布

· 2.2k 阅读

15 ·

版权

文章标签：

#统计学

概率论与数理统计专栏收录该内容

23 篇文章

订阅专栏

在数理统计复习笔记一——统计中常用的抽样分布和数理统计复习笔记二——充分统计量中，分别介绍了统计量的几个常用抽样分布和充分统计量，引入统计量的目的在于对感兴趣的问题进行统计推断。本文先讨论感兴趣参数的估计问题——点估计。

一、矩估计

1.1 定义

对于样本 $X_1,\cdots,X_n$ 以及任意一正整数 $k$ ，我们称 $a_k=\frac{1}{n}\sum_{i=1}^nX_i^k\tag1$ $m_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\tag2$
为样本 $k$ 阶原点矩和 $k$ 阶中心矩。

称总体 $X$ 的 $k$ 阶原点矩和 $k$ 阶中心矩分别为 $\mu_k=EX^k\tag3$ $\nu_k=E(X-\mu_1)^k\tag4$

由定义可知，样本矩不依赖于总体中的参数，但总体矩则与分布中的未知参数有关。由中心极限定理和大数定律可知，样本矩是总体矩的一个很好的估计。

1.2 总体均值和方差的矩估计

记 $X_1,\cdots,X_n$ 为简单随机样本，且总体二阶矩存在，记 $\mu=E(X)$ ， $\sigma^2=Var(X)$ ，则由矩估计法可知 $\hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i\tag5$ $\hat\mu_2=\hat\mu^2+\hat\sigma^2=a_2=\frac{1}{n}\sum_{i=1}^nX_i^2\tag6$
由此可求得总体均值和方差的矩估计为 $\hat\mu=\overline X\tag7$ $\hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\tag8$
所以，总体均值的矩估计是样本均值，总体方差的矩估计是样本方差的 $\frac{n-1}{n}$ 倍。记 $S_n^{*2}=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2$ 为修正的样本方差。而且上述结论不要求总体分布的形式。

1.3 例子

柏松分布 $P(\lambda)$ 的总体均值的矩估计： $\hat\lambda=\overline X\tag9$ $\hat\lambda=S_n^{*2}\tag{10}$
都是总体均值的矩估计（ $\lambda$ 既是柏松分布 $P(\lambda)$ 的均值，又是方差），但本着选用低阶矩的原则，可以选用 $(9)$ 式。
均匀分布 $\theta)$ 中参数 $\theta$ 的估计： $\hat\theta=2\overline X\tag{11}$

二、极大似然估计

2.1 基本思想

认为概率最大的事情最有可能发生。

2.2 似然函数

对于分布族 $\{f(x,\theta),\theta\in\Theta\}$ ，如以 $f(\bm x,\theta)$ 记其 $n$ 个样本的联合概率分布，则对于给定的样本观测值 $\bm x=(x_1,\cdots,x_n)$ ，我们称 $f(\bm x,\theta)$ 为参数 $\theta$ 的似然函数，简称为似然函数，并记作 $L(\theta, \bm x)=f(\bm x,\theta), \forall\theta\in\Theta\tag{12}$
称 $\ln L(\theta, \bm x)$ 为对数似然函数，记为 $l(\theta, \bm x)$ 或 $l(\theta)$

由定义可知，似然函数与样本联合概率分布相同，但二者的含义却不同：样本联合概率分布是固定参数值 $\theta$ 下关于样本 $\bm x$ 的函数，它的取值空间为样本空间 $\mathcal X$ ；似然函数则是固定样本观测值 $\bm x$ 下关于参数 $\theta$ 的函数，其在参数空间 $\Theta$ 上取值。

换句话说就是，当给定参数后，样本联合分布将告诉我们哪个样本将以多大的概率被观测到；反过来，当有了样本后，似然函数将告诉我们如何最有可能的取参数 $\theta$ 的估计。

2.3 MLE

2.3.1 定义

设 $X_1,\cdots,X_n$ 是来自某概率分布 $f(x,\theta)\in \mathcal F=\{f(x,\theta),\theta\in\Theta\subseteq\bm R^k\}$ 的一组样本，如果统计量 $\hat\theta(\bm X)$ 满足 $L(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}L(\theta,\bm x)\tag{13}$ 或等价的满足 $l(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}l(\theta,\bm x)\tag{14}$
则称 $\hat\theta$ 是 $\theta$ 的MLE

2.3.2 求解

根据定义可知，如果似然函数 $L(\theta,\bm x)$ 关于 $\theta$ 可微，则 $\theta$ 的MLE可以通过求解下面的方程求得： $\frac{\partial L(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{15}$ 或等价的有 $\frac{\partial l(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{16}$

称 $15$ 或 $16$ 为似然方程。

2.3.3 例子

正态分布 $N(\mu,\sigma^2)$ 的 $\mu$ 和 $\sigma^2$ 的MLE： $\hat\mu=\overline X\tag{17}$ $\hat\sigma^2=S_n^{*2}\tag{18}$
由此可知，对于正态总体而言，其均值和方差的矩估计和MLE是一样的
均匀分布 $U(0,\theta)$ 的 $\theta$ 的MLE： $\hat\theta=X_{(n)}\tag{19}$
和矩估计相比，不妨令 $\hat\theta_M=2\overline X$ ， $\hat\theta_L=X_{(n)}$ ，则 $E(\hat\theta_M)=\theta$ ， $Var(\hat\theta_M)=\frac{\theta^2}{3n}$ ， $E(\hat\theta_L)=\frac{n}{n+1}\theta$ ， $Var(\hat\theta_M)=\frac{n\theta^2}{(n+1)^2(n+2)}$ 。所以 $\hat\theta_M$ 是无偏估计，而 $\hat\theta_L$ 不是，但 $\hat\theta_L \lt Var \hat\theta_M$
柏松分布 $P(\lambda)$ 的 $\lambda$ 的MLE： $\hat\lambda=\overline X\tag{20}$

2.3.4 性质

一个参数的MLE不一定唯一
MLE肯定是充分统计量的函数
如果 $g(\theta)$ 是 $1 - 1$ 映射，且 $\hat\theta$ 是 $\theta$ 的MLE，那么 $g(\hat\theta)$ 是 $g(\theta)$ 的MLE，称为不变原则。

三、无偏估计和一致最小方差无偏估计

前两小节介绍了两种估计参数的方法，但我们应该选取哪一种呢？这就涉及到本节讲述的选择准则问题。

3.1 无偏估计准则

3.1.1 无偏估计

如果 $T(\bm X)$ 是未知参数 $\theta$ 的函数 $g(\theta)$ 的一个估计量，且满足 $E_\theta T(\bm X)=g(\theta), \forall \theta\in\Theta\tag{21}$
则称 $T(\bm X)$ 是 $g(\theta)$ 的无偏估计，其中 $E_\theta$ 表示期望是在分布 $f_\theta$ 下进行的。否则就是有偏估计，称 $b_T(\theta)=E_\theta T(\bm X)-g(\theta)$ 为 $T(\bm X)$ 的偏差。

对于正态总体，我们不难验证，样本均值 $\overline X$ 和样本方差 $S_n^2$ 分别是总体均值和方差的无偏估计（对于非正态总体，这一结论也是正确的），而总体方差的矩估计和MLE—— $S_n^{*2}$ 则不是无偏的，这是我们采用 $S_n^2$ 作为样本方差定义的一个原因。虽然 $S_n^{*2}$ 是有偏的，但随着 $n$ 的增大，它越来越接近无偏。

$E(\overline X)=E[\frac{1}{n}\sum\limits_{i=1}^nX_i]=\frac{1}{n}\sum\limits_{i=1}^nE(X_i)=\frac{1}{n}\sum\limits_{i=1}^n\mu=\mu$ ，无偏得证。

$E(S_n^2)=E[\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E[\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2-n\overline X^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2)$ ，而 $E(X_i^2)-E(X_i)^2=\sigma^2$ ，所以 $E(X_i^2)=\mu^2+\sigma^2$ ，所以 $E(\sum\limits_{i=1}^nX_i^2)=nE(X_i^2)=n(\mu^2+\sigma^2)\tag{*}$ 。
注意到， $Var(\overline X)=Var(\frac{1}{n}\sum\limits_{i=1}^nX_i)=\frac{1}{n}\sum\limits_{i=1}^nVar(X_i)=\frac{1}{n}\sigma^2$ ，而 $Var(\overline X)=E[\overline X^2]-E(\overline X)^2=E[\overline X^2]-\mu^2$ ，所以 $E[\overline X^2]=\mu^2+\frac{1}{n}\sigma^2\tag{**}$ 结合 $*$ 和 $* *$ 即可得到 $E(S_n^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2)=\frac{n(\mu^2+\sigma^2)}{n-1}-\frac{n}{n-1}(\mu^2+\frac{1}{n}\sigma^2)=\sigma^2$ ，无偏得证。

注意到 $\sigma^2=E(X_i-\mu)^2=E[\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2]$ ，当 $\mu$ 已知时， $\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2$ 是 $\sigma^2$ 的一个无偏估计。当 $\mu$ 未知时，自然的想法是用 $\overline X$ 代替 $\mu$ ，如果使用 $\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2$ 来估计，那么会低估 $\sigma^2$ 。证明如下：

$\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2$ = $\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu+\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2+\frac{2}{n}\sum\limits_{i=1}^n(X_i-\mu)(\mu-\overline X)+\frac{1}{n}\sum\limits_{i=1}^n(\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2-(\mu-\overline X)^2$

所以除非正好 $\overline X=\mu$ ，否则我们一定有 $\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2\lt \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2$
所以使用 $\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2$ 来估计，会低估方差。

3.1.2 渐进无偏估计

如果 $T(\bm X)$ 是 $g(\theta)$ 的一个有偏估计，且满足 $\lim_{n\to\infty}E_\theta T(X_1, \cdots, X_n)=g(\theta), \forall \theta\in\Theta\tag{22}$
则称 $T$ 是 $g(\theta)$ 的渐进无偏估计。

3.1.3 说明

无偏估计是从多次重复的角度引入的概念，从期望的定义不难看出，尽管一次估计， $T(\bm x)$ 的值不一定恰好等于参数真值 $g(\theta)$ ，但当大量重复使用时，其多次估计的平均值即等于参数
一个参数的无偏估计可能不是唯一的，也可能不存在，也可能不合理
缩小偏差的方法有刀切法和Bootstrap

3.1.4 例子

柏松分布 $P(\lambda)$ 的参数 $\frac{1}{\lambda}$ 不存在无偏估计
对于正态总体，样本标准差 $S_n$ 不是 $\sigma$ 的无偏估计（只有线性变换的无偏估计才是无偏估计）
由3.1.1可知，当正态总体均值 $\mu$ 已知或未知时， $\sigma^2$ 的无偏估计不唯一

3.2 一致最小均方误差准则

设 $X_1,\cdots,X_n$ 是来自分布族 $\mathcal F=\{f(x,\theta):\theta\in\Theta\}$ 中某一分布的样本， $g(\theta)$ 是一参数函数，以 $\varepsilon(g)$ 表示用来估计 $g(\theta)$ 的某些估计量的集合，如果存在一个 $T^*\in\varepsilon(g)$ ，使得对任一 $T\in\varepsilon(g)$ 均有 $E_\theta(T^*-g(\theta))^2\le E_\theta(T-g(\theta))^2, \forall \theta\in\Theta\tag{23}$
则称 $T^*$ 为 $g(\theta)$ 的在 $\varepsilon(g)$ 中的一致最小均方误差估计，也称 $T^*$ 在均方意义下优于 $T$ 。

均方误差（MSE）： $MSE(T)=E_\theta(T-g(\theta))^2$ ，当 $T$ 是 $g(\theta)$ 的无偏估计时，其MSE就是它的方差

3.3 一致最小方差无偏估计（ $U M V U E$ ）

3.3.1 定义

设 $X_1,\cdots,X_n$ 是来自分布族 $\mathcal F=\{f(x,\theta):\theta\in\Theta\}$ 中某一分布的样本， $g(\theta)$ 是一参数函数，又设 $T^*$ 为 $g(\theta)$ 的一个无偏估计。如对于 $g(\theta)$ 的任一无偏估计 $T$ ，均有 $Var_\theta(T^*)\le Var_\theta(T)\tag{24}$
则称 $T^*$ 是 $g(\theta)$ 的一致最小方差无偏估计，简记为 $U M V U E$ 。

对于某些分布族或参数，其 $U M V U E$ 不一定存在
$U M V U E$ 在以概率1相等的意义下是唯一的
如果 $T_1$ 和 $T_2$ 分别是 $g_1(\theta)$ 和 $g_2(\theta)$ 的 $U M V U E$ ，则对于任给定的常数 $a, b$ ， $aT_1+bT_2$ 是 $ag_1(\theta)+bg_2(\theta)$ 的 $U M V U E$

3.3.2 例子

正态分布 $N(\mu,\sigma^2)$ 的均值和方差的 $U M V U E$ ： $T(\bm X)=\overline X\tag{25}$ $S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2\tag{26}$

3.4 信息不等式和有效估计

$U M V U E$ 的方差是最小的，下面给出这个最小方差的一般表达式。

3.4.1 正则分布族和Fisher信息量

如果单参数分布族 $\mathcal F=\{f(x,\theta): \theta\in\Theta\}$ 具有如下五个条件：

参数空间 $\Theta$ 是直线上的开区间（有限、无限或半无限）
导数 $\frac{\partial f(x,\theta)}{\partial\theta}$ 存在， $\forall \theta\in\Theta$
支撑剂与参数 $\theta$ 无关（支撑集 $S=\{x:f(x,\theta)\gt0\}$ ）
其 $P D F$ $f(x,\theta)$ 的积分与微分运算可以互换，即 $\frac{d}{d\theta}\int_{-\infty}^\infty f(x,\theta)\, dx=\int_{-\infty}^\infty \frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{27}$
$I(\theta)=E_\theta(\frac{\partial}{\partial\theta}\ln f(x, \theta))^2\tag{28}$ 存在，且 $I(\theta)\gt0$

则称此分布族为 $C - R$ 分布族，其中条件 $1 - 5$ 也称为正则条件， $I(\theta)$ 称为该分布族的Fisher信息量。

柏松分布族是 $C - R$ 分布族
正态分布族 $N(\mu, 1)$ ， $\mu\in R$ 是 $C - R$ 分布族
均匀分布族 $U(0,\theta)$ 不是 $C - R$ 分布族
考虑IID样本的联合PDF，则可以证明 $E_\theta(\frac{\partial}{\partial\theta}\ln f(\bm X, \theta))^2=nI(\theta)$

3.4.2 信息不等式

本小节讨论正则分布族参数的无偏估计的方差的下界，即著名的信息不等式（C-R不等式）

设分布族 $\mathcal F=\{f(x,\theta): \theta\in\Theta\}$ 是正则的，可估函数 $g(\theta)$ 在 $\Theta$ 上可微，又设 $X_1, \cdots, X_n$ 是 $n$ 个来自此分布族的IID样本， $T(\bm X)$ 是 $g(\theta)$ 的一个无偏估计，且满足积分与微分号可互换的条件，即 $\frac{d}{d\theta}\int_{-\infty}^\infty T(\bm x)f(x,\theta)\, dx=\int_{-\infty}^\infty T(\bm x)\frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{29}$
则有 $Var_\theta(T(\bm X))\ge\frac{(g^{'}(\theta))^2}{nI(\theta)}\tag{30}$
其中， $I(\theta)$ 为 $\mathcal F$ 的Fisher信息量， $\frac{(g^{'}(\theta))^2}{nI(\theta)}$ 成为 $g(\theta)$ 的无偏估计的方差的C-R下界。

当样本不是独立时，只需把式 $30$ 中的 $nI(\theta)$ 换为 $E_\theta(\frac{\partial\ln f(\bm X,\theta)}{\partial\theta})^2$ 即可
信息不等式与Fisher信息量密切相关。不妨假设信息不等式的下界可以取到，且 $g(\theta)=\theta$ ，则此时无偏估计的最小方差为 $\frac{1}{nI(\theta)}$ 。这说明， $n\theta$ 越大，最小方差越小，参数 $\theta$ 越可以被精确的估计。这也说明，如果以估计量的方差的倒数作为估计量精度的指标，则精度与样本量 $n$ 成正比，而 $I(\theta)$ 则反映总体分布的性质， $I(\theta)$ 越大，说明总体本身提供的信息量越多。
$E_\theta[\frac{\partial}{\partial\theta}\ln f(\bm X,\theta)]=0\tag{31}$
$I(\theta)=Var_\theta[\frac{\partial}{\partial\theta}\ln f(\bm X,\theta)]=-E_\theta[\frac{\partial^2}{\partial\theta^2}\ln f(\bm X,\theta)]\tag{32}$
结合MLE的相关知识，可以得到 $I(\theta)$ 是用来估计MLE的方程的方差，详见极大似然估计的渐进正态性

3.4.3 有效估计

设 $T(\bm X)$ 是 $g(\theta)$ 的一个无偏估计，则比值 $e_n=\frac{(g^{'}(\theta))^2/nI(\theta)}{Var_\theta T(\bm X)}\tag{33}$
为 $T(\bm X)$ 的效率。如果 $e_n=1$ ，则称 $T(\bm X)$ 为 $g(\theta)$ 的有效估计。如果 $\lim\limits_{n\to\infty}e_n=1$ ，则称 $T(\bm X)$ 为 $g(\theta)$ 的渐进有效估计。

3.5 相合估计

从大样本角度（即 $n$ 不固定）考虑估计的优良。

3.5.1 相合估计

设统计量 $T_n$ 是总体参数 $g(\theta)$ 的估计量，如果当 $n\to\infty$ 时，

$T_n$ 依概率收敛于 $g(\theta)$ ，即对 $\forall\theta\in\Theta$ 及 $\epsilon\gt0$ ，有 $\lim_{n\to\infty}P\{|T_n-g(\theta)|\ge\epsilon\} = 0$ 则称 $T_n$ 是 $g(\theta)$ 的（弱）相合估计。
$T_n$ 以概率1收敛于 $g(\theta)$ ，即 $\forall\theta\in\Theta$ ，有 $P\{\lim_{n\to\infty}T_n=g(\theta)\}=1$ 则称 $T_n$ 是 $g(\theta)$ 的强相合估计。