统计-样本及抽样分布

最新推荐文章于 2022-12-03 13:18:23 发布

jshazhang

最新推荐文章于 2022-12-03 13:18:23 发布

阅读量1.4k

点赞数 2

分类专栏：统计

本文链接：https://blog.csdn.net/jshazhang/article/details/80032566

版权

统计专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第六章样本及抽样分布

在概率中，我们所研究的随机变量的分布都是假设已知的。

在数理统计中，我们研究的随机变量的分布是未知的，或者是不完全知道的。我们通过对随机变量进行大量重复、独立的观察，收集书记，然后对数据进行整理，分析，从而对所研究的随机变量的分布作出各种推断。

随机样本

总体与个体

在数理统计中，我们把研究的对象的全体称为 $\color{red}{总体}$ ，总体中的每个成员称 $\color{red}{个体}$

在实际问题中，我们只对总体的某些数量指标感兴趣。这时，我们就把这些数量指标（如人的体重，学生的成绩）的全体作为 $\color{red}{总体}$ ，把每个数值作为 $\color{red}{个体}$ 。

总体中包含的个体的数量称为总体的 $\color{red}{容量}$ 。

容量为有限的总体称为 $\color{red}{有限总体}$ ,

容量为无限的总体称为 $\color{red}{无限总体}$ ,

若有限总体容量很大，可以视为无线总体。

总体中的每一个个体是随机试验的一个观察值x，它是某个随机变量X的取值。

例如总体是一群人的身高，身高X是一个随机变量，每个身高x是X的一个取值。

这样，一个总体对应一个随机变量X。

我们对总体的研究就是对这个随机变量X的研究。

X的分布函数和树脂2特征就称为总体的分布函数和数字特征。

进货我们将不区分总体与相应的随机变量，统称为总体X。

随机样本

从总体X中抽得的一部分个体叫做总体的一个样本。

从总体抽取一个个体，就是对总体X进行一次观察并记录结果。

我们在相同条件下对总体X进行n次反复独立的观察，并将n次观察结果按试验次序记为X1,…,Xn。由于每次观察结果也是随机的，因此这些Xi都是随机变量。

X1,…Xn是相互独立的，有与X相同分布的随机变量（独立同分布

）

从总体X中抽得n个个体X1,…,Xn称来自总体X的容量为n的 $\color{red}{样本}$ ，而每个个体Xi称为一个 $\color{red}{样本点}$ 。

它们依次是X1,…,Xn的样本观察值，简称 $\color{red}{样本值}$ 。

简单随机抽样

从总体中抽取样本必须满足一下两个条件：

1.随机性：抽样应随机进行，使得每个个体被抽到的机会均等。

2.独立性：每次抽样应独立惊喜，结果不受其他抽样结果影响，也不影响其他抽样结果。

满足以上两个条件抽样称为简单随机抽样。

对于有限总体，采用有放回抽样。

对应无线总体或大容量总体，采用不放回抽样。

后面提到抽样都是假设简单随机抽样。

总体，个体，简单随机抽样是数理统计中三个最基本的概念。

简单随机变量具有独立性和代表性（同分布）两个特征。

样本的分布函数和密度函数

设总体X是具有分布函数F的随机变量，若X1,…,Xn是X的一个容量为n的简单随机样本，则X1,…,Xn是具有同一分布函数F，且相互独立的随机变量。

我们也称X1,…,Xn为从分布函数F得到的容量为n的简单随机样本（简称样本），

它们的观察值X1,…,Xn称为样本值，又称为X的n个独立观察值。

所以(X1,…,Xn)的联合分布函数为

$F^*(X_1,..,X_n)=F(x_1)…F(X_n)=\prod_{i=1}^nF(x_i)$

若X具有概率密度f，则(X1,…,Xn)的联合概率密度为

$f^*(X_1,..,X_n)=f(x_1)…f(X_n)=\prod_{i=1}^nf(x_i)$

若总体X是离散型随机变量，分布律为P{X=x}=p(x),则(X1,…,Xn)的联合分布律为

P{ $X_1=x_1,..,X_n=X_n$ }= $p(x_1)…p(x_n)$

例如总体X服从0-1分布b(1,p)

p{X=x}=p(x)= $p^xq^{1-x}$

$p(x_1)…p(x_n)$ = $\prod_{i=1}^{n}p^{x_i}q^{1-X_i}$ = $p^{\sum_{i=1}^nx_i}q^{n-\sum_{i=1}^nz_i}$

直方图和箱线图

统计量

定义

设X1,…,Xn是来自总体X的一个样本，g(X1,…,Xn)是X1,…,Xn的函数，若g中不含未知数，则称g(X1,…,Xn)是一个统计量。

因为X1,…,Xn都是随机变量，故统计量g(X1,…,Xn)作为X1,…,Xn的函数，也是随机变量。

设X1,…,Xn是相应于样本X1,…,Xn的样本值，则称g(X1,…,Xn)是统计量g(X1,…,Xn)的观测值。

常用统计量

设X1,…,Xn是来自总体X的一个样本，X1,…,Xn是这一样本的观察值。

统计平均值(样本均值)Sample means

$\overline{X}={1\over n}\sum_{i=1}^bX_i$

相应的观察值 $\overline{x}={1\over n}\sum_{i=1}^bx_i$

样本方差 Sample variance

$S^2={1\over{n-1}}\sum_{i=1}^n(X_i-\overline{X})^2$

相应的观察值 $s^2={1\over{n-1}}\sum_{i=1}^n(x_i-\overline{x})^2$

样本标准差 Sample standard deviation

$S=\sqrt{S^2}=\sqrt{{1\over{n-1}}\sum_{i=1}^n(X_i-\overline{X})^2}$

相应的观察值

$s=\sqrt{{1\over{n-1}}\sum_{i=1}^n(x_i-\overline{x})^2}$

样本k阶（原点）矩 k-th monent of the sample

$A_k={1\over n}\sum_{i=1}^nX_i^k$ k=1,2,..

相应的观察值 $a_k={1\over n}\sum_{i=1}^nx_i^k$

样本k阶中心矩

$B_k={1\over n}\sum_{i=1}^n(X_i-\overline{X})^k$

相应的观察值 $b_k={1\over n}\sum_{i=1}^n(x_i-\overline{x})^k$

总体X的方差 $\sigma_X^2={1\over{N}}\sum_{i=1}^n(X_i-\overline{X})^2$

总体均值 $\overline{X}={1\over N}\sum_{i=1}^NX_i$

当样本X1,..,Xn容量较少是

总体方差较小，故样本方差修正为n-1

对于较大的n，两者几无差异。

若总体X的k阶矩 $E(X^k)=\mu_k$ 存在，则当n趋于无穷大是，样本k阶矩将依概率收敛与总体的k阶矩，即

$A_k \xrightarrow{P} \mu$ $A_k={1\over n}\sum_{i=1}^nX_i^k$

具体的说，

$\forall \epsilon>0 lim_{n \to \infty}P\{|A_k-\mu_k|<\epsilon\}=1$

事实上，因为X1,..,Xn独立且同分布

$X_1^k,…,X_n^k$ 也是独立且同分布

所以 $E(X_1^k)=...=E(X_n^k)=\mu_k$

再由辛钦大数定律

$A_k={1\over n}\sum_{i=1}^nX_i^k\xrightarrow{P} \mu_k$

$g(A_1,…,A_k)\xrightarrow{P} g(\mu_1,..,\mu_k)$

g是连续函数

抽样分布

$\chi^2$ 分布

定义

设X1,..,Xn是来自总体N(0,1)的样本，即X1,..,Xn相互独立且都服从标准正态分布，则称统计量（它们的平方和）

$\chi^2=X_1^2+...+X_n^2$

服从自由度为n的 $\chi^2$ 分布

记为 $\chi^2$ ~ $\chi^2$ (n)

自由度是指等式右端包含的独立变量的个数。

概率密度

f n (x) = ⎧ ⎩ ⎨ ⎪ ⎪ 1 2 n 2 Γ ( n 2 ) x n 2 - 1 e - x 2, x > 0 x, x \leq 0

$f_n(x)=\left\{ \begin{aligned} &{1 \over {2^{n \over 2}\Gamma({n\over 2})}}^{x^{{n\over2}-1}e^{-{x\over2}} } ,x>0\\ &x,x≤0 \end{aligned} \right.$

其中 $\Gamma(s)=\int_0^{+\infty}e^{-x}x^{s-1}dx$ 或 $\Gamma(s)=2\int_0^{+\infty}e^{-x^2}x^{2s-1}dx$

推导

可加性

设~ $\chi^2$ ( $n_1$ ) $\chi_2^2$ ~ $\chi^2$ ( $n_2$ )

且它们相互独立，则有

$\chi_1^2+\chi_2^2$ ~ $\chi^2$ ( $n_1+n_2$ )

期望

E( $\chi^2$ )=n

方差

D( $\chi^2$ )=2n

分位点

t分布

定义

设X~N(0,1),Y~ $\chi^2$ (n),且X,Y相互独立，则称随机变量

t= ${X \over \sqrt{Y/n}}$

服从自由度为n的t分布(学生氏分布)，记为t~t(n)

概率密度

h(t)= ${{\Gamma[(n+1)/2]} \over {\sqrt{\pi n}\Gamma(n/2)}}(1+{t^2\over n})^{-(n+1)/2}$

偶函数，y轴对称

E(X)=0

$\lim_{n \to \infty}h(t)={1\over {\sqrt{2\pi}}}^{e^{-t^2/2}}$

n足够大是t分布近似于N(0,1)分布，较小时，相差较大

分位点

对于一个概率数 $\alpha$ (0< $\alpha$ <1)$,怎么求c，使得概率

$P\{t>c\}=\alpha$ ?

这个点c称为t分布的 $\color{red}{上\alpha分位点}$ ，记为 $_t{\alpha}(n)$

即 $\alpha=P\{t > t_{\alpha}(n)\}=\int_{t_{\alpha}(n)}^{+\infty} t_n(x)dx$

F分布

定义

设U~ $\chi^2(n_1)$ ，U~ $\chi^2(n_2)$ 且U,V相互独立，则称随机变量

F= ${U/n_1}\over{V/n_2}$

服从自由度为( $n_1,n_2$ )的F分布，记为F~F( $n_1,n_2$ )

其中 $n_1$ 叫第一自由度， $n_2$ 叫第二自由度。

概率密度

f n (x) = ⎧ ⎩ ⎨ ⎪ ⎪ Γ ( n 1 + n 2 2 ) Γ ( n 1 2 ) Γ ( n 2 2 ) (n 1 n 2) n 1 2 x n 1 2 - 1 (1 + n 1 n 2) - n 1 + n 2 2, x > 0 0, x \leq 0

$f_n(x)=\left\{ \begin{aligned} &{{\Gamma({{n_1+n_2}\over 2})}\over{\Gamma({n_1\over2})\Gamma({n_2\over2})}}({n_1\over n_2})^{{n_1\over2}}x^{{n_1\over 2}-1}(1+{n_1\over n_2})^{-{{n_1+n_2}\over2}} ,x>0\\ &0,x≤0 \end{aligned} \right.$

F分布的性质

设U~ $\chi^2(n_1)$ ，U~ $\chi^2(n_2)$ 且U,V相互独立，则F= ${U/n_1}\over{V/n_2}$ ~F( $n_1,n_2$ )

于是 ${1\over F}$ = ${V/n_2}\over{U/n_1}$ ~F( $n_2,n_1$ )

F分布的应用模式

设 $X_1$ ,…, $X_m$ , $Y_1$ ,…, $Y_n$ 相互独立且都服从N(0,1)则

${(X_1^2+...+X_m^2)}\over{(Y_1^2+...+Y_n^2)}$ ~F(m,n)

分位点

对于一个概率数 $\alpha$ (0< $\alpha$ <1)$,怎么求c，使得概率

$P\{F>c\}=\alpha$ ?

这个点c称为F分布的 $\color{red}{上\alpha分位点}$ ，记为 $F_{\alpha}(n_1,n_2)$

即 $\alpha=P\{F > F_{\alpha}(n_1,n_2)\}=\int_{F_{\alpha}(n_1,n_2)}^{+\infty} f(x)dx$

正态总体的样本均值和样本方差的分布

命题1

设有总体X，其数学期望E(X)= $\mu$ ,方差D(X)= $\sigma^2$

$X_1,X_2,...,X_n$ 是来自总体X的一个样本，则

E( $\overline{X}$ )= $\mu$ =E(X)

D( $\overline{X}$ )= $\sigma^2\over n$ = ${D(X)\over n}$

E( $S^2$ )= $\sigma^2$ =D(X)

证明

(1)E( $\overline{X}$ )= $\mu$ =E(X)

$X_1,X_2,...,X_n$ 相互独立且服从同一分布。

E( $\overline{X}$ )==E( ${1\over n}\sum\limits_{i=1}^nE(X_i)$ )= ${1\over n}\sum\limits_{i=1}^nE(X_i)$ = ${1\over n}n\mu$ = $\mu$ =E(X)

样本均值的期望值等于总体X的期望值。

样本均值取值平均大小等于总体X取值平均大小

(2)D( $\overline{X}$ )= $\sigma^2\over n$ = ${D(X)\over n}$

D( $\overline{X}$ )=D( ${1\over n}\sum\limits_{i=1}^nE(X_i)$ )= ${1\over {n^2}}\sum\limits_{i=1}^nD(X_i)$ = ${1\over{n^2}}n\sigma^2$ = $\sigma^2\over n$ = ${D(X)\over n}$

样本均值的方差仅为总体X的方差的1/n

当样本容量n增大时，样本均值的方差远小于总体的方差，说明样本均值关于数学期望 $\mu$ 的集中程度远比总体的集中程度高。当n很大时，样本均值会密集在 $\mu$ 附近

(3)E( $S^2$ )= $\sigma^2$ =D(X)

E( $S^2$ )= $E[{1\over {n-1}}(\sum\limits_{i=1}^nX_i^2-n\overline{X}^2)]$ = ${1\over{n-1}}[\sum\limits_{i=1}^nE(X_i^2)-nE(\overline{X}^2)]$ = ${1\over{n-1}}[n(\sigma^2+\mu^2)-n({\sigma^2\over n}+\mu^2)]$ = $\sigma^2$ =D(X)

样本方差取值平均大小与总体X的方差大小相等

定理1（正态总体的样本均值的分布）

设 $X_1,X_2,...,X_n$ 是来自正态总体N( $\mu,\sigma^2$ )的一个样本，则

$\overline{X}$ ~N( $\mu,{\sigma^2 \over n}$ )

证明

$X_1,X_2,...,X_n$ 相互独立且服从同一正态分布。

由正态分布的线性组合性质( $C_1X_1+C_2X_2+...+C_nX_n$ ~N( $\sum\limits_{i=1}^nC_i\mu,\sum\limits_{i=1}^nC_i^2\sigma_i^2$ ))

$\overline{X}$ = ${1\over n}\sum\limits_{i=1}^nX_i$ ~N( $\sum\limits_{i=1}^n{1\over n}\mu,\sum\limits_{i=1}^n{1\over n^2}\sigma^2$ )=N( $\mu,{\sigma^2 \over n}$ )

标准化后得 Z= ${X-\mu}\over \sigma$ ~N(0,1)= ${{\overline{X}-\mu}\over{\sigma/\sqrt{n}} }$ ~N(0,1)

当n较大时，样本均值比总体更加集中在 $\mu$ 附近。

定理2（正态总体的样本方差的分布）

设 $X_1,X_2,...,X_n$ 是来自正态总体N()的一个样本，则

(1) ${(n-1)S^2}\over \sigma^2$ ~ $\chi^2$ (n-1)

(2) $\overline{X}$ 与 $S^2$ 相互独立

定理3（正态总体的样本均值与样本方差的分布）

设 $X_1,X_2,...,X_n$ 是来自正态总体N()的一个样本，则

$(\overline{X}-\mu)\over S/\sqrt{n}$ ~t(n-1)

证明

由定理1，U= ${{\overline{X}-\mu}\over{\sigma/\sqrt{n}} }$ ~N(0,1)

定理2，v= ${(n-1)S^2}\over \sigma^2$ ~ $\chi^2$ (n-1)

定理2， $\overline{X}$ 与 $S^2$ 相互独立的与V独立

由t分布定义,设X~N(0,1),Y~\chi^2(n),且X,Y相互独立，则称随机变量

t= ${X \over \sqrt{Y/n}}$ ~t(n) U相当于X，V相当于Y

得到 ${U \over \sqrt{V/(n-1)}}$ ~t(n-1)

${U \over \sqrt{V/(n-1)}}$ = ${{{\overline{X}-\mu}\over{\sigma/\sqrt{n}} }}\over{\sqrt{{{(n-1)S^2}\over \sigma^2}/(n-1)}}$ = $(\overline{X}-\mu)\over S/\sqrt{n}$

命题2

设 $X_1,X_2,...,X_{n1}$ ， $Y_1,Y_2,...,Y_{n2}$ 分别是来自正态总体N( $\mu_1,\sigma^2_1$ )和N( $\mu_,\sigma^2_2$ )的样本，且这两个样本相互独立，则

${{1\over{n_1\sigma_1^2}}\sum\limits_{i=1}^{n_1}(X_i-\mu_1)^2 }\over{{1\over{n_2\sigma_2^2}}\sum\limits_{i=1}^{n_2}(Y_i-\mu_2)^2}$ ~F( $n_1,n_2$ )

证明

$X_1,X_2,...,X_{n1}$ 相互独立且服从N( $\mu_1,\sigma^2_1$ )

标准化得 ${X_i-\mu_1}\over \sigma_1$ ~N(0,1)

则通过 $\chi_1^2+\chi_2^2$ ~ $\chi^2$ ( $n_1+n_2$ )得 U= $\sum\limits_{i=1}^{n_1}({{X_i-\mu_1}\over \sigma_1})^2$ ~ $\chi^2(n_1)$

同理V= $\sum\limits_{i=1}^{n_2}({{_i-\mu_2}\over \sigma_2})^2$ ~ $\chi^2(n_)2$

U与V相互独立

通过f分布定义设U~ $\chi^2(n_1)$ ，U~ $\chi^2(n_2)$ 且U,V相互独立，则F= ${U/n_1}\over{V/n_2}$ ~F( $n_1,n_2$ )

得到

${{1\over{n_1\sigma_1^2}}\sum\limits_{i=1}^{n_1}(X_i-\mu_1)^2 }\over{{1\over{n_2\sigma_2^2}}\sum\limits_{i=1}^{n_2}(Y_i-\mu_2)^2}$ ~F( $n_1,n_2$ )

定理4(两个正态总体的样本均值与样本方差的分布)

设 $X_1,X_2,...,X_{n1}$ ， $Y_1,Y_2,...,Y_{n2}$ 分别是来自正态总体N( $\mu_1,\sigma^2_1$ )和N( $\mu_,\sigma^2_2$ )的样本，且这两个样本相互独立，设 $\overline{X},S_1^2$ 和 $\overline{X},S_2^2$ 分别是这两个样本的样本均值和样本方差，则有

(1) ${S_1^2/\sigma_1^2}\over{S_2^2/\sigma_2^2}$ ~F( $n_1-1,N_2-1$ )

证明

由定理2，U= ${(n_1-1)S_1^2}\over \sigma_1^2$ ~ $\chi^2$ ( $n_1-1$ )，V= ${(n_2-)S_2^2}\over \sigma_2^2$ ~ $\chi^2$ ( $n_2-1$ )且它们相互独立

有F分布定义得

${U/n_1-1}\over{V/n_2-1}$ = ${S_1^2/\sigma_1^2}\over{S_2^2/\sigma_2^2}$ ~F( $n_1-1,n_2-1$ )

推论若 $\sigma_1^2=\sigma_2^2$ 则

${S_1^2}\over{S_2^2}$ ~F( $n_1-1,n_2-1$ )

(2) $\overline{X}±\overline{Y}$ ~N( $\mu_1±\mu_2,{\sigma_1^2 \over n_1} +{\sigma_2^2 \over n_2}$ )

标准化后得 ${\overline{X}±\overline{Y}-(\mu_1±\mu_2)}\over{\sqrt{{\sigma_1^2 \over n_1} +{\sigma_2^2 \over n_2}}}$ ~N(0,1)

证明

由定理一得 $\overline{X}$ ~N( $\mu_1,{\sigma_1^2 \over n_1}$ )

$\overline{Y}$ ~N( $\mu_2,{\sigma_2^2 \over n_2}$ )

通过正态分布线性性质得

$\overline{X}±\overline{Y}$ ~N( $\mu_1±\mu_2,{\sigma_1^2 \over n_1} +{\sigma_2^2 \over n_2}$ )

jshazhang

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
统计-样本及抽样分布

第六章样本及抽样分布在概率中，我们所研究的随机变量的分布都是假设已知的。在数理统计中，我们研究的随机变量的分布是未知的，或者是不完全知道的。我们通过对随机变量进行大量重复、独立的观察，收集书记，然后对数据进行整理，分析，从而对所研究的随机变量的分布作出各种推断。随机样本总体与个体在数理统计中，我们把研究的对象的全体称为总体总体\color{red}{总体}，总体中的每...
复制链接

扫一扫