第七章参数估计与假设检验

Malus_

已于 2024-01-20 19:59:24 修改

阅读量784

点赞数 25

分类专栏： # 概率论文章标签：概率论

于 2024-01-10 11:26:08 首次发布

本文链接：https://blog.csdn.net/qq_51458760/article/details/135499043

版权

概率论专栏收录该内容

8 篇文章 0 订阅

订阅专栏

点估计

点估计（Point Estimation） 是统计推断中的一个基本概念，它涉及使用样本数据来估计一个未知的总体参数（如均值、方差等）。点估计的目标是提供单个数值作为未知参数的最佳估计。以下是点估计的关键特点和方法：

定义：
- 点估计是通过从总体中抽取的样本来估计总体参数的一种方法。它产生一个值（即“点”），作为未知参数的估计。
估计量：
- 估计量（Estimator）是用于进行点估计的规则或公式，通常表示为一个统计量，如样本均值、样本方差等。
- 例如，用样本均值 $\overline{X}$ 来估计总体均值 $\mu$ ，或用样本方差 $S^2$ 来估计总体方差 $\sigma^2$ 。
估计值：
- 估计值（Estimate）是应用估计量于具体样本数据后得到的结果，即估计量的实际计算值。
性质：
- 点估计的好坏通常由其无偏性、有效性和一致性来判断。一个好的点估计量应当是无偏的、有效的（即具有最小的方差）并且是一致的。
方法：
- 常用的点估计方法包括最大似然估计（MLE）、矩估计等。
总体均值 ( $\mu$ ): 总体均值是指一个数据集合中所有数据点的平均值。总体是指研究对象的整体，比如所有人的身高。总体均值的公式为：
$\mu = \frac{\sum_{i=1}^{N} X_i}{N}$
其中， $X_i$ 表示每个数据点， $N$ 是总体中的元素数量。
总体方差 ( $\sigma^2$ ): 总体方差衡量的是总体数据点与总体均值之间的偏差程度。方差越大，数据点分布越分散。公式为：
$\sigma^2 = \frac{\sum_{i=1}^{N} (X_i - \mu)^2}{N}$
其中， $\mu$ 是总体均值。
样本均值 ( $\bar{x}$ ): 样本均值是从总体中抽取的样本数据点的平均值。样本是指从总体中随机抽取的一部分数据。公式为：
$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$
其中， $x_i$ 表示样本中的每个数据点， $n$ 是样本中的元素数量。
样本方差 ( $s^2$ ): 样本方差是衡量样本数据点与样本均值之间偏差的度量。与总体方差类似，但在计算时，分母使用的是 $n - 1$ 而不是 $n$ ，这是为了得到一个无偏估计。公式为：
$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
其中， $\bar{x}$ 是样本均值。

最大似然估计

最大似然估计（Maximum Likelihood Estimation, MLE） 是一种在统计学中用于基于观测数据估计模型参数的方法。它基于最大化似然函数，即找到使观测数据概率最大的参数值。以下是最大似然估计的基本概念：

离散型随机变量的最大似然估计：
- 如果随机变量是离散型的，似然函数 $L(\theta)$ 定义为所有样本值的联合概率，即：
  
  $L(\theta) = \prod_{i=1}^n P(X = x_i; \theta),$
  
  其中 $x_1, x_2, \cdots, x_n$ 是样本值， $\theta$ 是需要估计的参数。
连续型随机变量的最大似然估计：
- 对于连续型随机变量，似然函数 $L(\theta)$ 定义为所有样本值的联合概率密度函数，即：
  
  $L(\theta) = \prod_{i=1}^n f(x_i; \theta),$
  
  这里 $f(x_i; \theta)$ 是在参数 $\theta$ 下，观测值 $x_i$ 的概率密度函数。

矩估计

矩估计：

矩估计是一种不同于最大似然估计的参数估计方法，它基于样本矩（如样本均值、样本方差等）来估计总体参数。
例如，可以用样本均值 $\overline{x}$ 来估计总体期望 $E (X)$ 。
$\overline{x} = E(X)$

在实际应用中，通常需要对似然函数取对数（即对数似然函数），从而将乘积转换为求和，这样在数学上更易于处理。最大似然估计的关键是找到参数 $\theta$ 的值，使得似然函数（或对数似然函数）最大化。

评价估计量

在统计学中，评价估计量（估计器）的标准主要包括无偏性、有效性和一致性（相合性）。这些标准帮助我们判断一个估计量的好坏，即它在估计未知参数时的性能。以下是这些标准的具体定义：

无偏性：
- 一个估计量 $\widehat{\theta}$ 是无偏的，如果它的期望等于被估计的参数值，即 $\mathbb{E}(\widehat{\theta}) = \theta$ 。
- 注意：您的公式中的 $\mathbb{E}(\widehat{\theta}) = 0$ 应该是 $\mathbb{E}(\widehat{\theta}) = \theta$ 。
有效性：
- 如果 $\widehat{\Theta}_1$ 和 $\widehat{\Theta}_2$ 都是未知参数 $\Theta$ 的无偏估计量，且 $\widehat{\Theta}_1$ 的方差小于或等于 $\widehat{\Theta}_2$ 的方差，则 $\widehat{\Theta}_1$ 被认为比 $\widehat{\Theta}_2$ 更有效。
- 即，如果 $\mathcal{D}(\widehat{\Theta}_1) \leq \mathcal{D}(\widehat{\Theta}_2)$ ，则 $\widehat{\Theta}_1$ 更有效。
一致性（相合性）：
- 一个估计量 $\widehat{\Theta}$ 被称为一致的（或相合的），如果它在样本大小 $n$ 趋向于无穷大时，以概率 1 收敛到被估计的参数值 $\Theta$ 。
- 形式化地，如果对于任意 $\epsilon > 0$ ，都有 $\lim_{n \to \infty} \mathcal{P}\{|\widehat{\Theta} - \Theta| < \epsilon\} = 1$ ，则 $\widehat{\Theta}$ 是一致的。

这些标准为选择合适的估计量提供了指导，以确保估计结果的准确性和可靠性。

假设检验

假设检验 是统计学中用于决定样本数据是否支持某个特定假设的一种方法。以下是假设检验的基本概念和步骤：

拒绝域：
- 拒绝域 $W$ 是在样本空间中的一个区域，当样本值 $(x_1, x_2, \cdots, x_n)$ 落在此区域内时，我们拒绝原假设 $\mathcal{H}_0$ 。
- 如果样本值 $(x_1, x_2, \cdots, x_n)$ 不在拒绝域 $W$ 内，我们则接受原假设 $\mathcal{H}_0$ 。
- 拒绝域的边界点称为临界点。
两类错误：
- 第一类错误：错误地拒绝了实际为真的原假设 $\mathcal{H}_0$ ，称为弃真错误。
- 第二类错误：错误地接受了实际为假的原假设 $\mathcal{H}_0$ ，称为纳伪错误。
显著性检验的一般步骤：
1. 提出假设：根据问题的要求提出原假设 $\mathcal{H}_0$ 和对立假设 $\mathcal{H}_1$ 。
2. 确定显著性水平和样本容量：给定显著性水平 $\alpha$ （ $\alpha < 1$ ）和样本容量 $n$ 。
3. 确定检验统计量及其拒绝域：选择合适的检验统计量并确定其拒绝域的形式。
4. 计算拒绝域：按照犯第一类错误的概率等于 $\alpha$ 来求出拒绝域 $W$ 。
5. 作出决策：根据样本值计算检验统计量 $\mathcal{T}$ 的观测值 $t$ ，如果 $\in W$ ，则拒绝原假设 $\mathcal{H}_0$ ；否则接受原假设 $\mathcal{H}_0$ 。

假设检验是统计分析中的核心工具，广泛用于科学研究、工程、经济学和其他领域，以检验理论假设或实验结果是否具有统计显著性。

例题

设总体 $X$ 的二阶矩存在，且 $\sigma^2=DX$ , 若 $X_1,X_2,...,X_n)$ 是从该总体中取出的一个样本， $\overline{X}$ 是其样本均值，则 $D\overline{X}=$

【解析】

样本均值 $\overline{X}$ ：样本均值是样本中所有观察值的平均值，计算公式为 $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ ，其中 $X_i$ 是样本中的第 $i$ 个观测值， $n$ 是样本大小。
方差的线性性质：对于任意两个独立的随机变量 $X$ 和 $Y$ 及常数 $a$ 和 $b$ ，方差具有以下性质： $D(aX + bY) = a^2DX + b^2DY$ 。
题目中给定条件：
- 总体 $X$ 的方差（ $D X$ ）为 $\sigma^2$ 。
- $X_1, X_2, ..., X_n)$ 是从总体中抽取的样本。

根据这些信息，我们可以计算样本均值 $\overline{X}$ 的方差：

样本均值 $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ 。

应用方差的线性性质，我们有：

$D\overline{X} = D\left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)$

由于每个 $X_i$ 都是独立同分布的，所以方差可以分别计算并求和：

$D\overline{X} = \frac{1}{n^2} \sum_{i=1}^{n} DX_i$

由于每个 $DX_i$ 都等于 $\sigma^2$ ，所以有：

$D\overline{X} = \frac{1}{n^2} \cdot n \cdot \sigma^2$

简化得：

$D\overline{X} = \frac{\sigma^2}{n}$

因此，样本均值 $\overline{X}$ 的方差 $D\overline{X}$ 等于总体方差 $\sigma^2$ 除以样本大小 $n$ 。

Malus_

关注

25
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
第七章参数估计与假设检验

点估计（Point Estimation）是统计推断中的一个基本概念，它涉及使用样本数据来估计一个未知的总体参数（如均值、方差等）。点估计的目标是提供单个数值作为未知参数的最佳估计。以下是点估计的关键特点和方法：定义：估计量：估计值：性质：方法：点估计是统计分析和数据科学中的基本工具，用于从样本数据中提取信息以推断总体特征。最大似然估计（Maximum Likelihood Estimation, MLE）是一种在统计学中用于基于观测数据估计模型参数的方法。它基于最大化似然函数，即找到使观测数据概率最大
复制链接

扫一扫