概率 + 统计样本及抽样分布（六）

最新推荐文章于 2023-11-20 19:43:44 发布

一杯敬朝阳一杯敬月光

最新推荐文章于 2023-11-20 19:43:44 发布

阅读量3.7k

点赞数 3

分类专栏：笔记文章标签：笔记

本文链接：https://blog.csdn.net/qq_xuanshuang/article/details/107308196

版权

笔记专栏收录该内容

14 篇文章 1 订阅

订阅专栏

总体和样本

在数理统计中，不是对所研究的对象全体 ( 称为总体)进行观察，而是抽取其中的部分(称为样本)进行观察获得数据（抽样），并通过这些数据对总体进行推断.

总体

对随机试验的某一数量指标进行试验或观察：

试验的全部可能的观察值称为总体
每一个可能观察值称为个体
总体中所包含的个体的个数称为总体的容量

总体中的每一个个体是随机试验的一个观察值，因此它是某一随机变量X 的值
一个总体对应一个随机变量X
不再区分总体和相应的随机变量，统称为总体X
X 的分布函数和数字特征称为总体的分布函数和数字特征

样本

总体分布一般是未知，或只知道是包含未知参数的分布。
为推断总体分布及各种特征，按一定规则从总体中抽取若干个体进行观察试验，以获得有关总体的信息，这一抽取过程称为 “抽样”。
所抽取的部分个体称为样本。
样本中所包含的个体数目称为样本容量。

对总体X在相同的条件下，进行n次重复、独立观察，其结果依次记为 $X_1,X_2,\cdots,X_n$ 。这样得到的随机样本 $X_1,X_2,\cdots,X_n$ 是来自总体X的一个简单随机样本，与总体随机变量具有相同的分布。n称为这个样本的容量。

一旦取定一组样本 $X_1,X_2,\cdots,X_n$ ，得到n个具体的数值 $(x_1,x_2,\cdots,x_n)$ ，称为样本的一次观察值，简称样本值。

最常用的一种抽样叫作“简单随机抽样”，其特点：

代表性： $X_1,X_2,\cdots,X_n$ 中每一个与所考察的总体有相同的分布.
独立性： $X_1,X_2,\cdots,X_n$ 是相互独立的随机变量.

总体、样本、样本值的关系

统计是从手中已有的资料--样本值，去推断总体的情况---总体分布F(x)的性质.

样本是联系二者的桥梁

总体分布决定了样本取值的概率规律，也就是样本取到样本值的规律，因而可以由样本值去推断总体.

若总体的分布函数为F(x)、概率密度函数为f(x),则其简单随机样本的联合分布函数为 $F^*(x_1,x_2,\cdots,x_n) = F(x_1)F(x_2)\cdots F(x_n)$

其简单随机样本的联合概率密度函数为 $f^*(x_1,x_2,\cdots,x_n) = f(x_1)f(x_2)\cdots f(x_n)$

抽样分布

统计量与经验分布函数

统计量

由样本值去推断总体情况，需要对样本值进行“加工”，这就要构造一些样本的函数，它把样本中所含的（某一方面）的信息集中起来.

这种不含任何未知参数的样本的函数称为统计量. 它是完全由样本决定的量.

设 $X_1,X_2,\cdots,X_n$ 是来自总体X的一个样本， $g(X_1,X_2,\cdots,X_n)$ 是 $X_1,X_2,\cdots,X_n$ 的函数，若g中不含未知参数，则 $g(X_1,X_2,\cdots,X_n)$ 是样本的一个统计量。

$X_1,X_2,\cdots,X_n$ 是样本，也是随机变量
统计量是随机变量的函数，故也是随机变量
$g(x_1,x_2,\cdots,x_n)$ 是统计量 $g(X_1,X_2,\cdots,X_n)$ 的观察值。

几个常见统计量

样本平均值： $\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$ （它反映了总体均值的信息）

样本方差： $S^2 = \frac{1}{n - 1}\sum_{i=1}^n(X_i -\bar{X} )^2 = \frac{1}{n - 1}(\sum_{i=1}^nX_i^2 - n \bar{X}^2)$ （它反映了总体方差的信息）

样本标准差： $S = \sqrt{\frac{1}{n - 1}\sum_{i=1}^n(X_i -\bar{X} )^2}$

样本k阶原点矩： $A_k=\frac{1}{n}\sum_{i=1}^nX_i^k \ \ k=1,2,\cdots$ （它反映了总体k 阶矩的信息）

样本k阶中心矩： $B_k= \frac{1}{n }\sum_{i=1}^n(X_i -\bar{X} )^k \ \ k=1,2,\cdots$ （它反映了总体k 阶中心矩的信息）

注意： $A_1 = \bar{X}, B_2 = \frac{n-1}{n}S^2,S^2=A_2-A_1^2$

统计量的观察值

$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i$

$s^2 = \frac{1}{n - 1}\sum_{i=1}^n(x_i -\bar{x} )^2$

$s = \sqrt{\frac{1}{n - 1}\sum_{i=1}^n(x_i -\bar{x} )^2}$

$a_k=\frac{1}{n}\sum_{i=1}^nx_i^k \ \ k=1,2,\cdots$

$b_k= \frac{1}{n }\sum_{i=1}^n(x_i -\bar{x} )^k\ \ k=1,2,\cdots$

仍分别称为样本均值、样本方差、样本标准差、样本 k 阶（原点）矩以及样本 k 阶中心矩。

统计量的一些性质

设总体X的均值为 $\mu$ ，方差为 $\sigma^2$ ， $X_1,X_2,\cdots,X_n$ 是来自总体X的一个样本，则

$E(\bar{X})=E(X)=\mu$
$D(\bar{X})=\frac{D(X)}{n}=\sigma^2/n$
$E(S^2)=D(X)=\sigma^2$
若总体X的k阶矩 $E(X^k)=\mu_k$ 存在，则 $A_k=\frac{1}{n}\sum_{i=1}^nX_i^k\overset{P}{\rightarrow} \mu_k\ \ k=1,2,\cdots$ （矩估计法的理论根据）

经验分布函数

设 $X_1,X_2,\cdots,X_n$ 是来自总体F的一个样本，用 $s(x) |x| < \infty$ ，表示 $x_1,x_2,\cdots,x_n$ 中不大于x的随机变量的个数

定义：经验分布函数为 $F_n(x) = \frac{1}{n}s(x)\ \ -\infty < x < \infty$

正态总体的三个常用抽样分布

统计量的分布称为抽样分布
总体分布已知时，抽样分布虽然是确定的，但一般来说难以求得
正态总体的三个常用抽样分布：
- $\chi ^ 2$ 分布
- 分布
- 分布

$\chi ^ 2$ 分布

$\chi ^ 2$ 分布是由正态分布派生出来的一种分布.

定义：设 $X_1,X_2,\cdots,X_n$ 相互独立, 都服从正态分布 N(0,1) ，则称随机变量： $\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2$ 所服从的分布为自由度为 n 的 $\chi ^ 2$ 分布。记为 $\chi^2 \sim \chi^2(n)$

$\chi ^ 2$ 分布的性质

设 $X_1,X_2,\cdots,X_n$ 相互独立, 都服从正态分布 $N(\mu,\sigma^2)$ ，则 $\chi ^ 2=\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2 \sim \chi^2(n)$
设 $X_1 \sim \chi^2(n_1),X_2 \sim \chi^2(n_2)$ ，且相互独立，则 $X_1 +X_2 \sim \chi^2(n_1 + n_2)$ ，这个性质叫 $\chi ^ 2$ 分布的可加性.
若 $\chi^2 \sim \chi^2(n)$ ， $\chi ^ 2$ 分布的数学期望和方差 $E(\chi^2) = n, D(\chi^2) = 2n$

T分布

定义：设 $X \sim N(0,1)$ , $Y \sim \chi^2(n)$ , 且X与Y相互独立，则称变量 $T=\frac{X}{\sqrt{Y/n}}$ 所服从的分布为自由度为 n的 T分布，记为 $T \sim t(n)$ 。T分布又称为学生氏分布，它的概率密度函数为：

T分布的性质

T分布的密度函数关于对称，当n充分大时，妻徒刑近似于标准正态分布概率密度函数的图形，再由 $\Gamma$ 函数的性质有 $\lim_{n\rightarrow \infty}h(t) = \frac{1}{\sqrt{2\pi}}e^{-t^2/2}$ ，即当n足够大时，
$t_{1-\alpha}(n) = -t_{\alpha}(n)$
时， $t_{\alpha}(n) \approx z_{\alpha}$

F分布

设 $U \sim \chi^2(n_1),V \sim \chi^2(n_2)$ ，U与V相互独立，则称随机变量 $F = \frac{U/n_1}{V/n_2}$ 服从自由度为n1及 n2 的F分布，n1称为第一自由度，n2称为第二自由度，记作 $F \sim F(n_1,n_2)$ 。

F分布的性质

若 $F \sim F(n_1,n_2)$ ，则 $\frac{1}{F} = \frac{V/n_2}{U/n_1} \sim F(n_2,n_1)$
$F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2, n_1)}$

正态总体的样本均值与样本方差的分布

定理 1 (样本均值的分布)

设 $X_1,X_2,\cdots,X_n$ 是来自正太总体 $N(\mu,\sigma^2)$ 的样本， $\bar{X}$ 是样本均值，则有 $\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$ ，即 $\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$

n取不同值时样本均值 $\bar{X}$ 的分布

定理 2 (样本方差的分布)

设 $X_1,X_2,\cdots,X_n$ 是来自正太总体 $N(\mu,\sigma^2)$ 的样本， $\bar{X}$ 和 S^2 分别是样本均值和样本方差,则有

$\frac{(n-1)S^2}{\sigma^2} \sim\chi^2(n-1)$
$\bar{X}$ 与独立

n取不同值时 $\frac{(n-1)S^2}{\sigma^2}$ 的分布见右图

定理 3 (样本均值方差比的分布)

设 $X_1,X_2,\cdots,X_n$ 是来自正太总体 $N(\mu,\sigma^2)$ 的样本， $\bar{X}$ 和 S^2 分别是样本均值和样本方差,则有 $\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n - 1)$

定理 4 (两总体样本均值差、样本方差比的分布)

设 $X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$ ，且X与Y独立, $X_1,X_2,\cdots,X_n$ 是来自X的样本， $Y_1,Y_2,\cdots,Y_n$ 是来自Y的样本， $\bar{X}$ 和 $\bar{Y}$ 分别是这两个样本的样本均值， S_1^2 和 S_2^2 分别是这两个样本的样本方差,则有

$\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)$
若 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ $\frac{\bar{X}-\bar{Y}-(\mu_1 - \mu_2)} { \sqrt{\frac{(n_1 - 1)S_1^2+ (n_2 - 1)S_2^2}{n_1+n_2-2}} {\sqrt{\frac{1}{n_1} + \frac{1}{n_2} } }} \sim t(n_1 + n_2 -2)$