概率论与数理统计 Chapter4. 参数估计

Espresso Macchiato

已于 2022-04-25 21:16:04 修改

阅读量1.3k

点赞数 2

分类专栏：基础数学文章标签：概率论参数估计极大似然估计矩估计区间估计

于 2022-03-13 20:13:26 首次发布

本文链接：https://blog.csdn.net/codename_cys/article/details/123465086

版权

基础数学专栏收录该内容

24 篇文章

订阅专栏

概率论与数理统计 Chapter4. 参数估计

1. 基础概念

1. 总体

总体是指与与所研究的问题有关的对象个体的全体所构成的集合，它是一个概率分布。

2. 样品

样品是按照一定的规定从总体中仇取出来的一部分个体。其中抽取的样品数量称之为样本大小，样本容量或者样本量。

3. 统计量

统计量是指完全由样本所决定的量。

1. 样本方差

$S^2 = \sum_{i=1}^{n}(X_i - \bar{X})^2 / (n-1)$

2. k阶原点矩

$a_k = \sum_{i=1}^{n}X_i^k / n$

3. k阶中心矩

$M_k = \sum_{i=1}^{n}(X_i - \bar{X})^k / n$

2. 参数的点估计

1. 矩估计

矩估计的核心思路就是使用样品的原点矩进行参数估计，在已知样品分布函数的情况下，我们可以求出样本的中心矩，然后我们在实际的采样样本当中求出对应的中心矩的值，然后就可以反解分布函数当中的参数了。

我们结合第三章的内容就可以快速地给出一些比较重要的分布函数的参数估计了。

1. 正态分布

对于正态分布：

$\frac{1}{\sqrt{2\pi} \cdot \sigma} \cdot exp(-\frac{(x-\mu)^2}{2\sigma^2})$

由之前第三章的知识，我们已知：

$\mu$

$\sigma^2$

此时，我们用均值 $\bar{X}$ 来估计 $E X$ ，用 $S^2$ 来估计方差，就可以反解得到参数 $\mu$ 与 $\sigma^2$ 。

需要额外提及一下的是，这里使用的是样本方差 $S^2$ 来对 $V a r (X)$ 进行估计，而没有采用二阶中心矩 $m_2$ ，这里的原因在于无偏性的考虑，这部分的原因会在后续的点估计优良性准则当中进行介绍。

2. 指数分布

对于指数分布：

$\lambda \cdot e^{-\lambda x}$

根据上一章的内容，我们知道 $1/\lambda$ ，因此，我们可以快速地通过样本均值 $\bar{X}$ 来对 $\lambda$ 进行估计:

$\lambda = 1/\bar{X}$

3. 均匀分布

同样的，对于均匀分布 $\frac{1}{b-a}$ ，我们根据上一章节的内容，可以得到均匀分布的均值和方差为 $\frac{a+b}{2}$ ， $Var(X) = = (b-a)^2/12$ 。

因此，我们可以用样本的均值 $\bar{X}$ 和二阶中心矩 $m_2$ 对参数 $a$ 和 $b$ 进行估计，得到：

$\left\{ \begin{aligned} a &= \bar{X} - \sqrt{3m_2}\\ b &= \bar{X} + \sqrt{3m_2} \end{aligned} \right.$

4. 二项分布

对于二项分布 $B (n, p)$ ，同样有 $E X = n p$ ，因此，我们同样可以用样本均值快速地估计得到 $\bar{X} / n$ 。

5. 泊松分布

类似的，对于泊松分布 $P(\lambda)$ ，有 $\lambda$ ，因此我们可以直接使用样本均值对其进行估计：

$\lambda = \bar{X}$

2. 极大似然估计

极大似然估计的基本假设和矩估计倒是相差甚远，它本质的观点是说直接求出N次采样得到当前采样结果的概率表达式，然后拟合一组参数使得这个概率取到最大值。

用数学语言描述就是，我们给出采样样本的概率分布函数为：

$L(X_1, ..., X_n; \theta_1, ..., \theta_k) = f(X_1; \theta_1, ..., \theta_k)...f(X_n; \theta_1, ..., \theta_k)$

要求得一组参数 $(\theta_1^{*}, ..., \theta_k^{*})$ 令上式取到极大值。

称 $L$ 为上述采样的极大似然函数，要令 $L$ 取最大值，有单调性易知问题等价于求 $\sum_{i=1}^{n} logf(X_i; \theta_1, ..., \theta_k)$ 的最大值。

而当取值 $\theta_i$ 能够使得上式成立时，必有： $\frac{\partial logL}{\partial \theta_i} = 0$ ，因此，我们就可以反推出各个参数的取值。

同样的，我们来考察一下几个常见分布的极大似然估计的值。

1. 正态分布

对于正态分布分布 $N(\mu, \sigma)$ ，有：

$\sum_{i} (log( \sqrt{2\pi\sigma^2} ) + \frac{(x-\mu)^2}{2\sigma^2})$

由 $\frac{\partial logL}{\partial \mu} = 0$ ，可以求得： $\mu = \bar{X}$ 。

由 $\frac{\partial logL}{\partial \sigma^2} = 0$ ，可以求得： $\sigma^2 = m_2$ 。

2. 指数分布

对于指数分布 $\lambda e^{-\lambda x}$ ，同样可以推导得到极大似然估计： $\lambda = 1/\bar{X}$ 。

3. 二项分布

对于二项分布 $B (n, p)$ ，有： $\bar{X} / n$ 。

4. 均匀分布

均匀分布是无法通过极大似然估计来直接获得求解的，只能另类反推：

$\left\{ \begin{aligned} a &= min(X) \\ b &= max(X) \end{aligned} \right.$

5. 泊松分布

对于泊松分布 $\frac{\lambda^i}{i!} e^{-\lambda}$ ，同样可以求得： $\lambda = \bar{X}$ 。

3. 贝叶斯估计

贝叶斯估计这里主要就是介绍一个概念，他的核心思路是说对于要估计的参数 $\theta$ ，已经有了一个先验的概率分布认知 $\rho(\theta)$ ，此时，在进行参数估计时，我们就需要把这部分内容考虑在内。

以极大似然估计为例，极大似然函数 $L$ 就需要修正为：

$\Pi_{k}\rho(\theta_k) \cdot \Pi_{i} f(x_i; \theta_k)$

3. 点估计的优良性准则

1. 无偏性

参数估计的无偏性本质上就是说参数估计没有系统误差。

具体而言，就是说针对一个参数估计 $g$ ，满足： $E [g] = g$ 。

需要注意的是：

矩估计和极大似然估计并不一定满足无偏性条件。

下面，我们用一下常用的样本估计参数来进行讨论。

1. 均值

我们常常使用样本的均值来衡量分布的均值，这是一个无偏估计，因为：

$E(\bar{X}) = \sum_{i}E(X_i) / N = N\mu / N = \mu$

由此可见，使用样本均值来估计样本分布的均值是一个无偏估计。

2. 方差

对于样本方差，前面提到了，我们事实上不使用二阶中心矩 $m_2$ ，而使用样本方差 $S^2$ 来对其进行估计，就是因为样本方差 $S^2$ 是方差的一个无偏估计，而二阶中心矩 $m_2$ 不是。

给出推导：

$\begin{aligned} E(S^2) &= E[\frac{1}{N-1} \cdot \sum_{i}(X_i - \bar{X})^2] \\ &= E[\frac{1}{N-1} \cdot \sum_{i} [(X_i - \mu) - (\bar{X} - \mu)]^2) \\ &= E[\frac{1}{N-1} \cdot \sum_{i} [(X_i - \mu)^2 - 2(X_i-\mu)(\bar{X} -\mu) + (\bar{X} - \mu)^2]] \\ &= E[\frac{1}{N-1} \cdot (\sum_{i} (X_i-\mu)^2 - N(\bar{X} - \mu)^2)] \\ &= E[\frac{1}{N-1} \cdot (\sum_{i} (X_i-\mu)^2 - \frac{1}{N} \cdot(\sum_{i}(X_i - \mu) )^2)] \\ &= E[\frac{1}{N-1} \cdot (\sum_{i} (X_i-\mu)^2 - \frac{1}{N} \cdot(\sum_{i}(X_i - \mu)^2 + 2\sum_{i, j}(X_i -\mu)(X_j-\mu))] \\ &= \frac{1}{N} \sum_{i}\cdot E(X_i-\mu)^2 + \frac{2}{N-1} \cdot E(X_i-\mu) \cdot E(X_j-\mu) \\ &= N\sigma^2 / N \\ &= \sigma^2 \end{aligned}$

可以看到：

样本方差 $S^2$ 是关于样本分布的方差的一个无偏估计。

而同样的，我们此前可以看到，对于正态分布，极大似然估计给出的方差为二阶中心矩 $m_2$ ，这个结果并非是无偏的。

3. 标准差

对于标准差，由于方差 $\sigma^2 = E(S^2) = Var(S) + (ES)^2$ ，所以如果我们直接采用样本方差 $S^2$ 来估计标准差的话，结果总是会偏小的。

我们往往需要给出一个无偏因子 $c_n$ 来对标准差进行修正，而这个参数与样本的分布有关，通常不是很好计算。

但是，特别的，对于正态分布 $N(\mu, \sigma^2)$ 而言，修正因子为：

$c_n = \sqrt{\frac{n-1}{2}} \Gamma(\frac{n-1}{2}) / \Gamma(\frac{n}{2})$

2. 最小方差无偏估计

对于一个变量，事实上可以存在多种估计均满足无偏性，而最小方差无偏估计（MVU估计）则是其中方差最小的一个，其物理含义来说，就是对参数估计涨落最小的一个估计。

其数学上的定义为：

设 $\hat{\theta}$ 为 $g(\theta)$ 的一个无偏估计，若对于 $g(\theta)$ 的任何一个无偏估计 $\hat{\theta}'$ ，均有 $Var_{\theta}(\hat{\theta}) \leq Var_{\theta}(\hat{\theta}')$ ，且对任意的 $\theta$ 均成立，则称 $\hat{\theta}$ 为 $g(\theta)$ 的一个最小方差无偏估计（MVU估计）。

但是要求出MVU估计一般来说是比较困难的，因此，这里我们只给出一些已经被证明的MVU分布：

对于正态分布 $N(\mu, \sigma)$ ， $\bar{X}$ 是均值 $\mu$ 的一个MVU估计；
对于指数分布， $\bar{X}$ 是 $1/\lambda$ 的一个MVU估计；
对于均匀分布 $\theta)$ ， $\frac{n+1}{n} max(X_1, ..., X_n)$ 是 $\theta$ 的一个MVU估计；
对于二项分布 $B (N, p)$ ， $\bar{X} / N$ 是 $p$ 的一个MVU估计；

3. 相合性

相合性是说随着样本容量N的不断增大，估计量与真实量不断地趋近的性质。

我们给出相合性的一般定义：

设总体分布依赖于参数 $\theta_1, .., \theta_k$ ， $g(\theta_1, ..., \theta_k)$ 是 $\theta_1, ..., \theta_k$ 之一的给定函数。设 $X_1, ..., X_n$ 为其总体的一个样本， $T(X_1, ..., X_n)$ 是 $g(\theta_1, ..., \theta_k)$ 的一个估计量。若对于任意 $\epsilon>0$ ，有： $lim_{n\to \infty} P_{\theta_1, ..., \theta_k}(|T(X_1, ..., X_n) - g(\theta_1, ..., \theta_k)| \geq \epsilon) = 0$ ，且对于任意 $\theta$ 均成立，则称 $T(X_1, ..., X_n)$ 是 $g(\theta_1, ..., \theta_k)$ 的一个相合估计。

4. 区间估计

1. 基础概念 & 定义

如前所述，我们已知参数估计事实上就是用一个观测量来替代一个理论参数，当样本量足够大的时候根据大数定理我们总能说这俩结果是比较靠近的，但是他们总会存在一定的偏差概率。

而区间估计的含义就是说给出一个范围区间，然后我们虽然没办法准确地给出待估计参数的绝对值，但是总能说这个参数在这个区间范围内的概率可以到达多少（比如95%之类）。

因此，参数估计本质上来说就是我们给出待估计参数的概率分布，然后就能够求得我们所需要的范围区间了。

下面，我们来给出区间估计相关的一些概念的具体定义。

1. 置信区间 & 置信系数

定义：

给定一个 $(0, 1)$ 之间的数 $\alpha$ ，对待估计参数 $\theta$ 的任意取值，如果有 $P_{\theta}(\hat{\theta_1}(X_1, ..., X_n) \leq \theta \leq \hat{\theta_2}(X_1, ..., X_n))$ 都等于 $1-\alpha$ ，则称区间估计 $[\hat{\theta_1}, \hat{\theta_2}]$ 的置信系数为 $1-\alpha$ ，区间 $[\hat{\theta_1}, \hat{\theta_2}]$ 就称为对应置信度下的置信区间。

2. 置信界

定义：

设 $X_1, ..., X_n$ 是从某一个总体当中抽出来的样本，总体分包包含未知数 $\theta$ ， $\bar{\theta} = \bar{\theta}(X_1, ..., X_n)$ 和 $\underline{\theta} = \underline{\theta}(X_1, ..., X_n)$ 都是统计量，则：
1. 若对于 $\theta$ 的一切取值，有 $P_{\theta}(\bar{\theta}(X_1, ..., X_n) \geq \theta) = 1-\alpha$ ，则称 $\bar{\theta}$ 是关于 $\theta$ 的一个置信系数为 $1-\alpha$ 的置信上界；
2. 若对于 $\theta$ 的一切取值，有 $P_{\theta}(\underline{\theta}(X_1, ..., X_n) \leq \theta) = 1-\alpha$ ，则称 $\underline{\theta}$ 是关于 $\theta$ 的一个置信系数为 $1-\alpha$ 的置信下界；

2. 枢轴变量法

枢轴变量法的核心思路其实就是找出待估计的变量的真实概率分布，然后就可以对概率密度函数积分求解对应的区间估计了。

这里，第二章中我们给出的统计学三大分布就会体现出他们的价值了，因为关于均值还有方差的许多问题都可以使用统计学三大分布进行表示。

1. $\sigma^2$ 已知的正态分布估计 $\mu$

对于方差 $\sigma^2$ 已知的正态分布 $N(\mu, \sigma)$ ，我们又正态分布的性质易知： $\sqrt{n}(\bar{X} - \mu)/\sigma \sim N(0, 1)$ 。

因此，要对均值 $\mu$ 的置信区间进行求解，就只需要对上述这个 $N (0, 1)$ 的标准正态分布找到相同置信度的置信区间，然后反推一下期望值 $\mu$ 即可。

我们定义 $u_{\alpha}$ 表示 $\int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{t^2/2}dt = 1-\alpha$ 的解，则我们易知上述正态分布的期望值 $\mu$ 在置信系数为 $1-\alpha$ 下置信区间为：

$[\hat{\theta_1}, \hat{\theta_2}] = [\bar{X} - \sigma u_{\alpha/2} / \sqrt{n}, \bar{X} + \sigma u_{\alpha/2} / \sqrt{n}]$

2. $\sigma^2$ 未知的正态分布估计 $\mu$

这个问题和上述问题相仿，不过由于方差的理论值 $\sigma^2$ 位置，因此我们无法直接使用上述变换 $(\bar{X} - \mu)/\sigma$ 。

不过，根据第二章的内容，我们已知 $\sqrt{n}(\bar{X}-\mu)/S$ 满足自由度为 $n - 1$ 的学生t分布 $t_{n-1}$ 。

那么，我们又可以仿照上述方法得到参数 $\mu$ 在置信系数为 $1-\alpha$ 下的置信区间为：

$[\hat{\theta_1}, \hat{\theta_2}] = [\bar{X} - S \cdot t_{n-1} (\alpha/2) / \sqrt{n}, \bar{X} + S \cdot t_{n-1}(\alpha/2) / \sqrt{n}]$

同样的，此时可以计算得到 $\mu$ 的上下置信界分别为：

$\left\{ \begin{aligned} \underline{\mu} &= \bar{X} - S \cdot t_{n-1}(\alpha)/\sqrt{n} \\ \overline{\mu} &= \bar{X} + S \cdot t_{n-1}(\alpha)/\sqrt{n} \end{aligned} \right.$

3. $\mu$ 未知的正态分布估计 $\sigma^2$

同样的，由第二章相关的内容，我们已知，对于一个正态分布，我们有 $(n-1)S^2/\sigma^2 \sim \chi_{n-1}^2$ ，因此，我们可以快速地得到 $\sigma^2$ 的区间估计为：

$[(n-1)S^2 / \chi_{n-1}^2(\alpha/2), (n-1)S^2 / \chi_{n-1}^2(1-\alpha/2)]$

而对应的上下置信界的结果为：

$\left\{ \begin{aligned} \underline{\sigma^2} &= (n-1)S^2/\chi_{n-1}^2(\alpha) \\ \overline{\sigma^2} &= (n-1)S^2/\chi_{n-1}^2(1-\alpha) \end{aligned} \right.$

4. 贝伦斯-费歇尔问题（两正态分布估计 $\mu_1-\mu_2$ ）

贝伦斯-费歇尔问题本质上就是求两个正态分布的期望值之差的置信区间。

我们给出贝伦斯-费歇尔问题的具体描述如下：

设有两个方差相同的正态分布 $N(\mu_1, \sigma^2)$ 与 $N(\mu_2, \sigma^2)$ ， $\mu, \sigma_1, \sigma_2$ 均未知，则分别对两者抽样得到 $X_1, ..., X_n$ 与 $Y_1, ..., Y_m$ ，求 $\mu_1-\mu_2$ 的区间估计。

由第二章中的统计学三大分布相关内容，我们已知：

$\sqrt{\frac{nm(n+m-2)}{n+m}}[(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)] / \sqrt{\sum_{i=1}^n(X_i-\bar{X})^2 + \sum_{j=1}^m (Y_j - \bar{Y})^2} \sim t_{n+m-2}$

为了简化公式，我们记 $\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2 + \sum_{j=1}^m (Y_j - \bar{Y})^2} / \sqrt{n+m-2}$ ，则我们可以推知 $\mu_1-\mu_2$ 的区间估计为：

$[(\bar{X} - \bar{Y}) - S \cdot t_{n+m-2}(\alpha/2) \sqrt{\frac{n+m}{nm}}, (\bar{X} - \bar{Y}) + S \cdot t_{n+m-2}(\alpha/2) \sqrt{\frac{n+m}{nm}}]$

$\left\{ \begin{aligned} \underline{\mu_1 - \mu_2} &= \bar{X}-\bar{Y} - S \cdot t_{n+m-2}(\alpha) \cdot \sqrt{\frac{n+m}{mn}} \\ \overline{\mu_1 - \mu_2} &= \bar{X}-\bar{Y} + S \cdot t_{n+m-2}(\alpha) \cdot \sqrt{\frac{n+m}{mn}} \end{aligned} \right.$

5. 两正态分布估计 $\sigma_1^2/\sigma_2^2$

同样的，对于两个期望值相同的正态分布 $N(\mu, \sigma_1)$ 和 $N(\mu, \sigma_2)$ ，则由第二章的统计学三大分布已知，他们的方差之商 $\sigma_1^2/\sigma_2^2$ 满足自由度为 $(m - 1, n - 1)$ 的F分布：

$(S_2^2/\sigma_2^2) / (S_1^2/\sigma_1^2) \sim F_{m-1, n-1}$

则同上我们可知，置信度为 $1-\alpha$ 的置信区间为：

$[(S_1^2/S_2^2) F_{m-1, n-1}(1-\alpha/2), (S_1^2/S_2^2) F_{m-1, n-1}(\alpha/2)]$

6. 指数分布估计 $\lambda$

对于指数分布，同样有第二章中统计学三大分布的相关内容可知： $2n\lambda \bar{X} \sim \chi_{2n}^2$ 。

因此，仿上我们即可得到 $1/\lambda$ 的区间估计为：

$[2n\bar{X}/\chi_{2n}^2(\alpha/2), 2n\bar{X}/\chi_{2n}^2(1-\alpha/2)]$

3. 大样本法

大样本法的本质事实上就是在无法直接获得待估计变量的概率分布函数的情况下，根据中心极限定理，在采样次数足够多的情况下，我们就可以用一个正态分布对其进行估计，从而通过上述枢轴变量法中提到的方式进行参数估计。

1. 二项分布 $B (n, p)$ 估计p

对于二项分布，如果n足够大（通常大于40即可），那么根据中心极限定理，可知近似有：

$(X-np)/\sqrt{np(1-p)} \sim N(0, 1)$

可以求解得到置信区间为：

$[\frac{n}{n+u_{\alpha/2}^2}(\frac{X}{n} + \frac{u_{\alpha/2}^2}{2n} - u_{\alpha/2}\sqrt{\frac{\frac{X}{n}(1-\frac{X}{n})}{n} + \frac{u_{\alpha/2}^2}{4n^2}}), \frac{n}{n+u_{\alpha/2}^2}(\frac{X}{n} + \frac{u_{\alpha/2}^2}{2n} + u_{\alpha/2}\sqrt{\frac{\frac{X}{n}(1-\frac{X}{n})}{n} + \frac{u_{\alpha/2}^2}{4n^2}})]$

其中 $X$ 表示n次实验当中命中的次数。

当然，也可以使用上述枢轴变量法当中关于正态分布的 $\mu$ 值求解的方法直接进行求解，即 $\sqrt{n}(\bar{X}-p)/S \sim N(0, 1)$ 也可以。

2. 泊松分布估计 $\lambda$

同样的，对于泊松分布，我们同样根据中心极限定理有：

$\frac{X - n\lambda}{\sqrt{n\lambda}} \sim N(0, 1)$

反解可以得到置信区间为：

$[\bar{X} + u_{\alpha/2}^2 - u_{\alpha/2}\sqrt{u_{\alpha_2}^2/(4n^2) + \bar{X}/n}, \bar{X} + u_{\alpha/2}^2 + u_{\alpha/2}\sqrt{u_{\alpha_2}^2/(4n^2) + \bar{X}/n}]$

3. 一般分布的均值估计

对于一般的问题，通过n次独立的采样，要对均值 $\theta$ 进行估计，那么我们直接使用中心极限定理则近似有：

$\sqrt{n}(\bar{X} - \theta) / S \sim N(0, 1)$

因此，我们总可以求解均值的置信区间为：

$[\bar{X}-S\cdot u_{\alpha_2}/\sqrt{n}, \bar{X}+S\cdot u_{\alpha_2}/\sqrt{n}]$

4. 一般情况的贝伦斯-费歇尔问题

对于两个一般的正态分布 $N(\mu_1, \sigma_1)$ 和 $N(\mu_2, \sigma_2)$ ，有：

$\left\{ \begin{aligned} \bar{X} \sim N(\mu_1, \sigma_1/\sqrt{n}) \\ \bar{Y} \sim N(\mu_2, \sigma_2/\sqrt{m}) \end{aligned} \right.$

进而有：

$\bar{X} - \bar{Y} \sim N(\mu_1 - \mu_2, \sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}})$

当 $(n, m)$ 很大时，我们就可以用 $S_1^2$ 和 $S_2^2$ 来替代 $\sigma_1^2$ 和 $\sigma_2^2$ ，因此，我们即有：

$[\bar{X} - \bar{Y} - u_{\alpha/2} \cdot \sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}}, \bar{X} - \bar{Y} + u_{\alpha/2} \cdot \sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}}]$
$$