概率论总结(五):抽样分布和参数估计(极大似然估计)

最新推荐文章于 2025-03-04 20:20:40 发布

JacksonKim

最新推荐文章于 2025-03-04 20:20:40 发布

阅读量5.7k

点赞数 2

分类专栏：数学文章标签：概率论统计学机器学习

本文链接：https://blog.csdn.net/qq_40765537/article/details/106839790

版权

数学专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了统计学中的核心概念——抽样分布与参数估计。首先介绍了随机样本、抽样分布（包括卡方分布、t分布和F分布）、正态总体的均值与方差的分布等基本概念。随后详细讲解了参数估计的原理，包括点估计与区间估计，以及矩估计法、极大似然估计等具体方法。最后，通过实例展示了如何进行参数的区间估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、样本及抽样分布

1. 随机样本的概念

定义设X是具有分布函数F的随机变量,若 $X_1,X_2,…,X_n$ 是具有同分布函数F的、相互独立的随机变量,则称 $X_1,X_2,…,X_n$ 为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值 $x_1,x_2,…,x_n$ 称为样本值,又称为X的n个独立的观察值

2. 箱型图

直方图和箱型图都是为了研究总体分布的性质。

介绍箱型图前我们先要指导样本分位数。

样本分位数：
设有容量为n的仰恩观察值 $x_1,x_2,...,x_n$ ，样本p分位数(0<p<1)记为 $x_p$ ，它具有以下性质：(1)指导有np个观察值小于或等于 $x_p$ ，(2)至少有n(1-p）个观察值大于或等于 $x_p$

我们说的中位数就是二分之一分位数。

数据集的箱线图是有箱子和直线组成的凸显，它是基于以下5个数的图形概括；最小值Min，第一四分位数 $Q_1$ ，中位数M，第三四分位数 $Q_3$ 和最大值Max。

在这里插入图片描述

3. 抽样分布

在学习抽样分布之前，需要了解几个概念

在这里插入图片描述

卡方分布

t分布

F分布

4. 正态总体的均值与样本方差的分布

上面我们介绍了很多抽样分布，如卡方分布、t分布和F分布。事实上，我的理解就是这些是为了描述正态总体的均值的方差的分布而提出的。为什么呢？不妨看看下面几条定理：

定理一

设 $X_1$ , $X_1$ , …, $X_n$ 是来自正态总体 $N(\mu ,\sigma ^2)$ 的样本， $\bar X$ 是样本均值，则有
$\bar X \sim N(\mu ,\sigma ^2/n)$

定理二

设 $X_1$ , $X_1$ , …, $X_n$ 是来自正态总体 $N(\mu ,\sigma ^2)$ , 的样本， $\bar X$ , $S^2$ 分别是样本均值和样本方差，则有

$\frac{(n-1)S^2}{\sigma ^2} \sim \chi^2(n-1)$
$\bar X$ 与 $S^2$ 相互独立

定理三

设 $X_1$ , $X_1$ , …, $X_n$ 是来自正态总体 $N(\mu ,\sigma ^2)$ , 的样本， $\bar X$ , $S^2$ 分别是样本均值和样本方差，则有
$\frac{\bar X -\mu}{S/\sqrt n }\sim t(n-1)$

定理四

在这里插入图片描述

二、参数估计

什么叫做参数估计？

参数估计（parameter estimation），统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。
从估计形式看，区分为点估计与区间估计：
从构造估计量的方法讲，有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。
参数要处理两个问题：（1）求出未知参数的估计量；（2）在一定信度（可靠程度）下指出所求的估计量的精度。信度一般用概率表示，如可信程度为95%；精度用估计量与被估参数（或待估参数）之间的接近程度或误差来度量。

1. 点估计

点估计(point estimation)是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值，如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量，作为未知参数或未知参数的函数的估计值。例如，设一批产品的废品率为θ。为了估计θ，从这批产品中随机地抽出n个作检查，以X记其中的废品个数，用X/n估计θ，这就是一个点估计。而我们知道，这里的参数估计的理论基础恰恰就是之前我们学过的大数定律，即样本均值收敛到总体均值（就是期望）。

下面是具体的点估计方法：

（1）矩估计法

用样本矩估计总体矩，从而得到总体分布中参数的一种估计。它的思想实质是用样本的经验分布和样本矩去替换总体的分布和总体矩。矩估计法的优点是简单易行, 并不需要事先知道总体是什么分布。缺点是，当总体类型已知时，没有充分利用分布提供的信息。一般场合下，矩估计量不具有唯一性。

矩估计法的具体做法如下。设

$\mu _1 = \mu _1(\theta _1,\theta _2,...,\theta _k)\\\mu _2 = \mu _2(\theta _1,\theta _2,...,\theta _k)\\...\\ \mu _k = \mu _k(\theta _1,\theta _2,...,\theta _k)$

这里左边 $\mu _1$ 是总体矩，解方程组，我们可以解出参数 $\theta _1,\theta _2,...,\theta _k$

$\theta _1 = \theta _1(\mu _1,\mu _2,...,\mu _k)\\ \theta _2 = \theta _2(\mu _1,\mu _2,...,\mu _k)\\...\\ \theta _k = \theta _k(\mu _1,\mu _2,...,\mu _k)$

但问题是我们是不知道总体距的。这是我们用样本矩 $A_l =\frac{1}{n}\sum _{i=1}^{n}X_i^l$ 替换总体矩,就可以得到个参数 $\theta _i$ 的估计量了。

$\hat \theta_i = \theta _i(A_1,A_2,...,A_k),i=1,2,...,k$

这种估计量称为矩估计量。距估计量的观察值(就是 $\hat \theta _i$ 的实际值)称为距估计值。

举例：
在这里插入图片描述

（2）极大似然估计

最大似然估计于1912年由英国统计学家R.A.费希尔提出，利用样本分布密度构造似然函数来求出参数的最大似然估计。

如果总体X属于连续型，其概率密度 $f(x;\theta),\theta$ 为待估参数， $\Theta$ 是 $\theta$ 可能的取值范围。设 $X_1,X_2,...,X_n$ 是来自X的样本 $X_1,X_2,...,X_n$ 的联合密度为
$\prod _{i=1}^nf(x_i,\theta)$
设 $x_1,x_2,...,x_n$ 是相应于样本 $X_1,X_2,...,X_n$ 的一个样本值，则随机点 $X_1,X_2,...,X_n)$ 落在 $x_1,x_2,...,x_n)$ 的邻域(边长分别为 $dx_i$ )内的概率近似为：
在这里插入图片描述
其值随 $\theta$ 的取值而变化。

现在我们来做一个分析，我们我们已经取到样本值 $x_1,x_2,...,x_n$ 了，说明这一样本值的概率比较大。我们当然不会考虑哪些不能是样本 $x_1,x_2,...,x_n$ 出现的 $\theta \in \Theta$ 作为 $\theta$ 的估计。所以我们在 $\theta$ 取值的可能范围 $\Theta$ 内挑选使得上面定义的概率最大的参数 $\hat \theta$ 作为 $\theta$ 的估计值。

由于因子 $\prod _{i=1}^{n}dx_i$

不随 $\theta$ 改变，所以只需让以下函数达到最大值
$L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod _{i=1}^{n}f(x_i;\theta)$
我们把该函数称为似然函数。如果
$L(x_1,x_2,...x_n;\hat \theta)=\max _{\theta \in \Theta}L(x_1,x_2,...x_n;\theta)$

那么成 $\hat \theta(x_1,x_2,...,x_n)$ 为 $\theta$ 的自大似然估计值 $\hat \theta(X_1,X_2,...,X_n)$ 为 $\theta$ 的最大似然估计量。

这样，确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。也就是：
在这里插入图片描述
等价于

从后一个方程求解往往比较方便，它也成为对数似然方程。

例子：
在这里插入图片描述

2. 区间估计

什么是区间估计？顾名思义，区间估计就是我们给出一个区间，并给出我们所要估计的参数 $\theta$ 在这个区间里面的概率大小。

(1)置信区间

在这里插入图片描述

（2）正态总体均值和方差的区间估计

第一部分我们在抽样分布里面给出了正态总体均值和方差的分布，在这里可以用来做正态总体本身的数学期望和方差的区间估计。

进行区间估计的一般步骤
在这里插入图片描述

单个总体 $N(\mu, \sigma ^2)$ 的情况

i. 数学期望 $\mu$ 的置信区间

如果 $\sigma$ 是已知的，那么将如下所示
在这里插入图片描述

但如果 $\sigma$ 是未知的，这时候我们就不能用上面的式子。考虑到 $S^2$ 是 $\sigma ^2$ 的无偏估计，所以我们可以把上面的 $\sigma$ 换成 $S=\sqrt {S^2}$ ，有抽样分布中的定理三
$\frac{\bar X -\mu}{S/\sqrt n }\sim t(n-1)$
我们可以求得 $\mu$ 的一个置信水平未 $1-\alpha$ 的置信区间
$(\bar X\pm \frac{S}{\sqrt {n}}t_{\alpha/2}(n-1))$

ii.方差 $\sigma ^2$ 的置信区间
$\sigma ^2$ 的无偏估计未 $S^2$ , 有抽样分布中的定理二
$\frac{(n-1)S^2}{\sigma ^2} \sim \chi^2(n-1)$
可得
在这里插入图片描述
两个总体 $N(\mu _1, \sigma _1^2), N(\mu_2, \sigma _2^2)$ 的情况