应用数理统计基本概念（二）

最新推荐文章于 2024-06-18 09:24:30 发布

muzhicihe

最新推荐文章于 2024-06-18 09:24:30 发布

阅读量1.8k

点赞数 1

分类专栏：应用数理统计

本文链接：https://blog.csdn.net/muzhicihe/article/details/85028571

版权

应用数理统计专栏收录该内容

2 篇文章 0 订阅

订阅专栏

(一)次序统计量与经验分布

1.次序统计量

假定 $X_1,X_2,...,X_n$ 为取自总体 $X$ 的样本， $x_1,x_2,...,x_n$ 为该样本的任意一个实现。将样本实现 $x_1,x_2,...,x_n$ 以从小到大顺序进行排序，其排序结果记为 $x_{(1)},x_{(2)},...,x_{(n)}$ ，令 $X_{(i)}$ 取值 $x_{(i)}(i=1,2,...,n)$ 。 $X_{(1)},X_{(2)},...,X_{(n)}$ 或其一部分被称之为次序统计量。例如： $X_{(1)}$ 被称之为最小次序统计量， $X_{(k)}$ 被称之为第 $k$ 次序统计量， $X_{(n)}$ 被称之为最大次序统计量。

2.经验分布函数

假设 $x_1,x_2,...,x_n$ 为来自总体 $X$ 的样本 $X_1,X_2,...,X_n$ 的一个实现， $x_{(1)},x_{(2)},...,x_{(n)}$ 为次序统计量 $X_{(1)},X_{(2)},...,X_{(n)}$ 的实现。对于任意实数 $x$ ,令 $F_n(x)= \begin {cases} 0, & x<x_{1} \\ \\ \frac{k}{n},&x_{(k)} \le x < x_{(k+1)}\\ \\ 1,&x\ge x_{(n)} \end{cases}$
其中， $k$ 为正整数，且 $1\le k \le n$ 。

$F_n(x)$ 被称之为总体 $X$ 的经验分布函数。经验分布函数具有分布函数的基本性质，聚集了样本 $X_1,X_2,...,X_n$ 中有关总体分布函数的信息。样本实现不同，所确定的经验分布函数存在差异，因此，经验分布函数是一个统计量。

(二)三大分布

(1) $\chi^2$ 分布

已知随机变量 $X_1,X_2,...,X_n$ 相互独立，且 $X_i \sim N(0,1),i=1,2,...,n$ 。令 $X=\sum_{i=1}^n X_i^2$ 则 $X$ 的概率分布被称之为自由度为 $n$ 的 $\chi^2$ 分布，自由度是指求和式中相互独立的项数。若 $X$ 服从自由度为 $n$ 的 $\chi^2$ 分布，一般简记为 $\sim \chi ^2(n)$ 。可以证明自由度为n的分布的概率密度函数为 $f_X(x) = \begin{cases} \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}exp\{-\frac{x}{2}\},&x>0\\ \\ 0,&x\le 0 \end{cases}$

$\chi^2$ 分布的性质：
1.若 $\sim \chi ^2(n)$ ，则 $E (X) = n, V a r (X) = 2 n 。$

2.若 $X_1 \sim \chi ^2(n_1),X_2 \sim \chi ^2(n_2)$ , $X_1$ 与 $X_2$ 相互独立，则 $X_1+X_2 \sim \chi ^2(n_1+n_2)$ 。

3.若 $X_3 = X_1 + X_2,X_1 \sim \chi ^2(n_1),X_3 \sim \chi ^2(n_3),n_3>n_1$ ,且 $X_1$ 与 $X_2$ 相互独立，则 $_2 \sim \chi ^2(n_3,n_1)$

4.若 $\sim \chi ^2(n)$ ，则 $\frac{X-n}{\sqrt{2n}} \underrightarrow{ d} N(0,1)$

其中，记号 $\underrightarrow{d}$ 表示随机变量序列依分布收敛。

(2)学生氏 $t^2$ 分布

已知随机变量 $X_1 \sim N(0,1),X_2 \sim \chi^2(n)$ ，且 $X_1$ 与 $X_2$ 相互独立，令 $X=\frac{X_1}{\sqrt{\frac{X_2}{n}}}$
则 $X$ 的概率分布被称之为自由度为 $n$ 的学生氏分布。若 $X$ 服从自由度为 $n$ 的学生氏分布，一般简记为 $X\sim t(n)$ 。自由度为 $n$ 的 $t$ 分布的概率密度函数为： $f_X(x) = \begin{cases} \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma{(\frac{n}{2})}}{(1+\frac{x^2}{n})}^{-\frac{n+1}{2}},&x>0\\ \\ 0,&x\le 0 \end{cases}$

学生氏 $t$ 分布的性质：
1.若 $\sim t(n)$ ，则当 $n > 1$ 时， $E (X) = 0$ 。当 $n > 2$ 时， $Var(X)=\frac{n}{n-2}$ 。

2.若 $\sim t(n)$ ，则有 $lim_{n \rightarrow \infty}f_X(x)=\frac{1}{\sqrt{2\pi}}exp\{-\frac{x^2}{2}\}$
当 $n$ 趋于无穷时，自由度为 $n$ 的学生 $t$ 分布趋于标准正太分布。但当 $n$ 较小时，自由度为 $n$ 的学生 $t$ 分布于标准正太分布有较大差异，表现在自由度为 $n$ 的学生 $t$ 分布的概率密度函数值在远离0处大于标准正太分布的概率密度函数值。

(3) $F$ 分布

已知随机变量 $X_1 \sim \chi^2(n_1),X_2 \sim \chi^2(n_2)$ ，且 $X_1$ 与 $X_2$ 相互独立，令
$X=\frac{X_1/n_1}{X_2/n_2}$
则概率分布被称之为第一自由度为 $n_1$ 的，第二自由度为 $n_2$ 的 $F$ 分布，若 $X$ 服从第一自由度为 $n_1$ ，第二自由度为 $n_2$ 的 $F$ 分布，一般简记为 $\sim F(n_1,n_2)$ 。

$F$ 分布的性质：
1.若 $\sim F(n_1,n_2)$ ，则当 $n_2>2$ 时， $E(X)=\frac{n_2}{n_2-2}$ ，当 $n_2>4$ 时， $Var(X)=\frac{2n_2^2(n_1+n_2-2)}{n_1(n_2-2)(n_2-4)}$ 。

2.若 $\sim F(n_1,n_2)$ ，则 $X^{-1} \sim F(n_2,n_1)$ 。

3.若 $\sim t(n)$ ，则 $X^2 \sim F(1,n)$ 。

(三)统计估计

统计估计理论是数理统计的重要组成部分，它主要涉及统计估计问题求解的基本思想和方法。所谓统计估计问题是指如何有效地利用来自总体的X样本的样本信息，求解总体 $X$ 分布的近似解析表达式或总体X有关量的近似值问题。

数理统计理论中，被用于对参数进行估计的统计量被称之为估计量，将样本实现带入估计量所确定的估计量的实现被称之为估计。有样本确定待估量的方法称之为估计方法。

(1)点估计

假设 $\theta$ 为总体 $X$ 的参数， $X_1,X_2,...,X_n$ 是抽自总体 $X$ 的样本，由样本确定参数 $\theta$ 的估计量，进而代入样本实现获得估计，这种估计形式被称之为点估计，有时也被称之为定值估计。

由样本获得参数 $\theta$ 的估计量 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ ，然后代入样本实现获得估计 $\hat{\theta}_{10}$ 和 $\hat{\theta}_{20}$ ，进行形成区间 $[\hat{\theta}_{10},\hat{\theta}_{20}]$ ，以其估计参数 $\theta$ 所在范围，这种估计形式被称之为区间估计。

(2)矩估计

为确定参数的估计量，首先建立估计参数与总体矩的关系表式，然后从该关系式求出估计参数的总体矩表达式，并将该表达式中的总体矩以相应的样本矩替换，得估计参数的估计量。进而将样本实现带入所估计的估计量便得到要估计的一个具体估计。

以这种思想确定参数估计的方法被称之为矩估计方法。使用矩估计方法所确定的估计量称之为矩估计量，矩估计量代入样本实现所得估计量实现被称之为参数的矩估计。

矩估计的步骤：
假设总体 $X$ 的 $\sim k$ 阶原点矩存在， $\theta_1,\theta_2,...,\theta_n$ 为要估计的参数，则 $\theta_1,\theta_2,...,\theta_n$ 的矩估计量由以下三步求得。

1.建立估计参数 $\theta_1,\theta_2,...,\theta_n$ 与总体 $X$ 的 $1\sim k$ 阶的原点矩 $\mu_1,\mu_2,...,\mu_n$ 之间的关系式，如下所示： $\begin{cases} \mu_1 = \mu_1(\theta_1,\theta_2,...\theta_n)\\ \mu_2 = \mu_2(\theta_1,\theta_2,...\theta_n)\\ ...\\ \mu_k = \mu_k(\theta_1,\theta_2,...\theta_n)\\ \end{cases}$
2.由上式求出要估计参数 $\theta_1,\theta_2,...,\theta_n$ 关于总体 $X$ 的 $1\sim k$ 阶的矩 $\mu_1,\mu_2,...,\mu_n$ 的表达式，如下式所示，下式被称为矩估计方程组
$\begin{cases} \theta_1 = \mu_1(\mu_1,\mu_2,...\mu_n)\\ \theta_2 = \mu_2(\mu_1,\mu_2,...\mu_n)\\ ...\\ \theta_k = \mu_k(\mu_1,\mu_2,...\mu_n)\\ \end{cases}$
3.将上式中总体 $X$ 的 $\sim k$ 阶的原点矩 $\mu_1,\mu_2,...,\mu_n$ 以相应的样本矩 $A_1,A_2,...,A_n$ 替换，便得要估计参数 $\theta_1,\theta_2,...,\theta_n$ 的矩估计量，如下所示：
$\begin{cases} \hat{\theta}_1 = \theta_1(A_1,A_2,...A_n)\\ \hat{\theta}_2 = \theta_2(A_1,A_2,...A_n)\\ ...\\ \hat{\theta}_k = \theta_k(A_1,A_2,...A_n)\\ \end{cases}$
矩估计方法事实上就是以样本矩代替相应总体矩，以样本矩的函数代替相应总体矩的函数，体现的是一种替换的思想。

(三)参数的极大似然估计法

极大似然估计法以最大概率原理为基础，充分利用了总体所提供的新型，所求得的估计量有很多优良的性质。最大概率原理是指，假定一个随机试验E的所有基本事件为A,B,C,…。若对随机试验E仅进行一次观察，观察到的结果恰好是事件A发生，那么就认为随机试验E的条件对事件A的发生更为有利。也即事件A在随机试验E的所有基本事件A,B,C,…中发生的概率应该最大。

假定总体 $X$ 的概率函数( $X$ 为离散型)或概率密度函数( $X$ 为连续型)为 $f_\theta (x)$ ，其中 $\theta$ 为未知参数，且 $\theta \in \Theta$ 被称之为参数空间。 $X_1,X_2,...,X_n$ 为取自总体X的样本， $x_1,x_2,...,x_n$ 为样本的一个实现,则该样本实现的概率函数或概率密度函数为： $p_\theta(x_1,x_2,...,x_n)=\prod_{i=1}^nf_\theta(x_i)$
似然函数定义为：
$L(\theta|x_1,x_2,...,x_n)=\prod_{i=1}^nf_\theta(x_i)$
极大似然估计的步骤：
只要总体 $X$ 的概率或概率密度函数 $f_\theta(x)$ 已知，参数 $\theta$ 的极大似然估计是可以按照程式化的过程来求解，其一般步骤如下所示：

1.求似然函数，对似然函数取对数建立对数似然函数 $l(\theta|x_1,x_2,...,x_n)$ 。

2.求 $l(\theta|x_1,x_2,...,x_n)$ 的最大值点，得参数 $\theta$ 的极大似然估计 $\hat\theta(x_1,x_2,...,x_n)$ 。

3.以样本 $X_1,X_2,...,X_n$ 对应替换参数 $\theta$ 极大似然估计 $\hat\theta(x_1,x_2,...,x_n)$ 中的 $x_1,x_2,...,x_n$ ，得参数 $\hat\theta$ 的极大似然估计量 $\hat\theta(X_1,X_2,...,X_n)$ 。