概率统计复习——样本与抽样分布

蒋晨阳

已于 2022-10-07 11:17:17 修改

阅读量341

点赞数

分类专栏： CNN 文章标签：概率论机器学习人工智能

于 2022-10-06 20:07:27 首次发布

本文链接：https://blog.csdn.net/qq_45520114/article/details/127187013

版权

CNN 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

概率统计复习——样本与抽样分布

总结自浙江大学盛骤老师等人的《概率论与数理统计》第四版

一、样本定义

定义，设 $X$ 是具有分布函数 $F$ 的随机变量，若 $X_1,X_2,\cdots,X_n$ 是具有同一分布函数 $F$ 的、相互独立的随机变量，则称 $X_1,X_2,\cdots,X_n$ 为从分布函数 $F$ 得到的容量为 $n$ 的简单随机样本，简称样本，它们的观察值 $x_1,x_2,\cdots,x_n$ 称为样本值，又称为 $X$ 的 $n$ 个独立的观察值。

由于 $X_i$ 之间相互独立，因此 $(X_1,X_2,\cdots,X_n)$ 的分布函数和概率密度函数分别为
$F^*(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nF(x_i)\\ f^*(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nf(x_i)$

二、抽样分布

对样本进行处理时，使用的往往不是样本本身，而是基于样本的不同函数，利用这些函数进行统计推断。

定义，设 $X_1,X_2,\cdots,X_n$ 是来自总体 $X$ 的一个样本， $g(X_1,X_2,\cdots,X_n)$ 是 $X_1,X_2,\cdots,X_n$ 的函数。若 $g$ 中不包含未知参数，则称 $g(X_1,X_2,\cdots,X_n)$ 是统计量。

由于 $X_1,X_2,\cdots,X_n$ 是随机变量，而统计量 $g(X_1,X_2,\cdots,X_n)$ 是随机变量的函数，因而统计量也是一个随机变量。若 $x_1,x_2,\cdots,x_n$ 是样本 $X_1,X_2,\cdots,X_n$ 的观测值，则 $g(x_1,x_2,\cdots,x_n)$ 是 $g(X_1,X_2,\cdots,X_n)$ 的观测值。

下面列出常用的统计量：

样本平均值
$\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$
样本方差
$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar{X}^2)$
样本标准差
$S=\sqrt{S^2}$
样本 $k$ 阶（原点）矩
$A_k=\frac{1}{n}\sum_{i=1}^nX_i^k,k=1,2,\cdots$
样本 $k$ 阶中心距
$B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k,k=2,3,\cdots$

注，在方差的计算过程中，其分母为 $n$ ，在样本方差的计算中，分母为 $n - 1$ 。关于这么做的原因可以见博客 https://www.cnblogs.com/zzdbullet/p/10087196.html，描写的较为简单清晰。

定义， $X_1,X_2,\cdots,X_n$ 是总体 $F$ 的一个样本，用 $S(x),-\infin<x<\infin$ 表示 $X_1,X_2,\cdots,X_n$ 中不大于 $x$ 的随机变量的个数。定义经验分布函数 $F_n(x)$ 为
$F_n(x)=\frac{1}{n}S(x),-\infin<x<\infin$

经验分布函数与总体分布函数相对应。

三、关于统计量的性质

均值：

$E (C) = C$
$E (CX) = CE (X)$
$E (X + Y) = E (X) + E (Y)$
若 $X, Y$ 相互独立，有 $E (X Y) = E (X) E (Y)$

方差：

$D (C) = 0$
$D(CX)=C^2D(X),D(X+C)=D(X)$
$D(X+Y)=D(X)+D(Y)+2E\set{(X-E(X))(Y-E(Y))}$
若 $X, Y$ 相互独立，则 $D (X + Y) = D (X) + D (Y)$

四、有关正态总体的几个常用统计量的分布

一、 $\chi^2$ 分布

设 $X_1,X_2,\cdots,X_n$ 是来自总体 $N (0, 1)$ 的样本，则称统计量
$\chi^2=X^2_1+X^2_2+\cdots+X^2_n$
服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $\chi^2\sim\chi^2(n)$

$\chi^2(n)$ 分布的概率密度为
$f(y)=\begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-y/2},&y>0,\\ 0,&otherwise \end{cases}$

证明：

已知 $X\sim \Phi(\mu,\sigma^2)$ ，则 $Y=X^2$ 的分布为
$f_Y(y)=\begin{cases} \frac{1}{\sqrt{2\pi}}y^{-1/2}e^{-1/2},&y>0,\\ 0,&y\leq 0. \end{cases}$

即 $f_Y(y)=\Gamma(\frac{1}{2},\frac{1}{2})$
又伽马分布具有可加性，则 $\chi^2\sim\Gamma(\frac{n}{2},\frac{1}{2})$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T8XZbGKY-1665057868962)(D:\CNN\Note\Asserts\chi2.png)]$

性质：

由 $\Gamma$ 分布的可加性易得 $\chi^2$ 分布的可加性
$\chi^2_1\sim\chi^2(n_1),\chi^2_2\sim\chi^2(n_2)\\ 有 \chi^2_1+\chi^2_2\sim\chi^2(n_1+n_2)$
若 $\chi^2\sim\chi^2(n)$ ，则 $E(\chi^2)=n,D(\chi^2)=2n$

二、t 分布

设 $X\sim N(0,1)$ ， $Y\sim\chi^2(n)$ ，且 $X, Y$ 相互独立，称随机变量
$t=\frac{X}{\sqrt{Y/n}}$
服从自由度为 $n$ 的 $t$ 分布，记为 $t\sim t(n)$ ，其又称为学生氏分布。概率密度函数为
$h(t)=\frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2},-\infin<x<\infin$
当 $n$ 足够大时， $t$ 近似标准正态分布。当 $n > 45$ 时，使用正态近似。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wYuv2bKh-1665057868966)(D:\CNN\Note\Asserts\student.png)]$

三、 $F$ 分布

设 $U\sim\chi^2(n_1),V\sim\chi^2(n_2)$ ，且 $U, V$ 相互独立，则称随机变量
$F=\frac{U/n_1}{V/n_2}$
为服从自由度为 $n_1,n_2)$ 的 $F$ 分布，记为 $F\sim F(n_1,n_2)$ 。其概率密度函数为
$\frac{\Gamma((n_{1}+n_{2})/2)(n_{1}/n_{2})^{n_{1}/2}x^{n_{1}/2-1}} {\Gamma(n_{1}/2)\Gamma(n_{2}/2)[(n_{1}/n_{2})x+1]^{(n_{1}+n_{2})/2}} \qquad \qquad x > 0$
由定义可知，若 $F\sim F(n_1,n_2)$ ，则 $\frac{1}{F}\sim F(n_2,n_1)$ 。 $F$ 分布的一个性质为 $F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$ ，其中 $F_\alpha$ 为 $F$ 分布的 $\alpha$ 分位点。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ilYMP7LW-1665057868975)(D:\CNN\Note\Asserts\F.png)]$

四、正态总体的样本均值与样本方差的分布

设总体的均值为 $\mu$ ，方差为 $\sigma^2$ ， $X_i,i=1,\cdots,n$ 为 $X$ 的一个样本， $\bar{X},S^2$ 分别是样本均值和方差，则有
$E(\bar{X})=\mu,D(S^2)=\frac{\sigma^2}{n}$
进一步，假设 $X\sim N(\mu,\sigma^2)$ ，则 $\bar{X}$ 也满足正态分布（正态分布的可加性），得到以下定理

定理一，设 $X_1,\cdots,X_n$ 为来自正态总体 $N(\mu,\sigma^2)$ 的样本， $\bar{X}$ 是样本均值，有
$\bar{X}\sim N(\mu,\sigma^2/n)$
定理二，设 $X_1,\cdots,X_n$ 为来自正态总体 $N(\mu,\sigma^2)$ 的样本， $\bar{X},S^2$ 分别是样本均值和方差，有
1. $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$
2. $\bar{X}$ 和 $S^2$ 相互独立
定理三
$\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
定理四，设 $X_1,\cdots,X_{n_1}$ 和 $Y_1,\cdots,Y_{n_2}$ 分别是来自正态总体 $N(\mu_1,\sigma_1^2)$ 和 $N(\mu_2,\sigma^2_2)$ 的样本，且这两个样本相互独立。设 $\bar{X},\bar{Y}$ 分别是这两个样本的均值， $S_1^2,S_2^2$ 分别是这两个样本的方差。有
1. $\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$
2. 当 $\sigma_1^2=\sigma_2^2=\sigma$ 时
  $\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{S_{w} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right)$
  其中
  $S_{w}^{2}=\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{n_{1}+n_{2}-2}, \quad S_{w}=\sqrt{S_{w}^{2}}$