《概率论与数理统计》第五章总结

一、总体与样本

1、在实际生活中,我们遇到的问题的测量数据通常带有很强的随机性,回答这些问题时一般涉及两个方面:

(1)试验的设计,也就是研究如何更加合理、更有效地获取观测数据;

(2)统计推断,也就是研究如何利用测定的数据和其他知识对所关心的问题作出尽可能精确、可信的结论。

数理统计就是研究怎样以有效的方式收集、整理、分析带有随机性的数据,并在此基础上,对所研究的随机现象的统计规律做出推断,从而为某种决策分析提供服务。

2、在数理统计中将研究对象的全体称为总体。构成总体的每一成员称为个体。在实际问题中,我们关心的往往是每一成员的某种数量指标,而不是每个成员的种种具体特征。所以,我们通常把所有成员数量指标的全体称为总体,而把每一个成员的数量指标称为个体

3、我们可以把要研究的随机变量X定义为总体,简称总体X。总体的分布也就是随机变量X的分布。当我们研究对象的数量指标为k个时,称为k维总体

根据总体所含个体的数量可以将总体分为有限总体无限总体。若总体含有有限个个体,称为有限总体;若总体含有无限个个体,称为无限总体。有时,总体个数充分大时,也可以视为无限总体。

4、从总体中抽取的待测个体组成的集合称为样本,样本所含的个体数目称为样本容量。样本X_{1},X_{2},...,X_{n}所有可能取值的全体(R^{n}的一子集)称为样本空间。一组样本观测值x_{1},x_{2},...,x_{n}就是样本空间的一个

样本要求:

(1)独立性:要求X_{1},X_{2},...,X_{n}是相互独立的随机变量。

(2)代表性:要求X_{1},X_{2},...,X_{n}与总体具有相同的分布。

满足这两条性质的样本称为简单随机样本。对于有限总体,若采取有放回的抽样观察,则得到的样本是简单随机样本;若采取不放回的抽样观察,当样本容量相对于总体所含个体数目很小时,也可近似视为简单随机样本。对于无限总体,有放回和不放回都是简单随机样本。

简单随机样本的性质:设X_{1},X_{2},...,X_{n}是来自总体X的简单随机样本。

(1)如果总体X的分布函数为F(x),则样本X_{1},X_{2},...,X_{n}的联合分布函数为

F(x_{1},x_{2},...,x_{n})=\prod_{k=1}^{n}F(x_{k})

(2)如果总体X的密度函数为f(x),则样本X_{1},X_{2},...,X_{n}的联合密度函数为

f(x_{1},x_{2},...,x_{n})=\prod_{k=1}^{n}f(x_{k})

(3)如果总体X的均值和方差分别为\mu ,\sigma ^{2},则

E(X_{k})=\mu ,D(X_{k})=\sigma ^{2},k=1,2,...,n

二、统计量与三大分布

1、为了对总体进行推断,需要对样本的n个观测值进行加工处理,把样本中所包含的有关信息集中起来。针对不同的问题构造不同的函数,再利用这些函数的取值对总体进行推断。这类函数就是统计量

2、设X_{1},X_{2},...,X_{n}是来自总体X的一组样本,T(X_{1},X_{2},...,X_{n})为一实值函数,且不含任何未知参数,则称T=T(X_{1},X_{2},...,X_{n})为一统计量。

3、统计量仍然为随机变量,当样本的观测值x_{1},x_{2},...,x_{n}给定时,统计量的取值就完全确定了。T(x_{1},x_{2},...,x_{n})就是T(X_{1},X_{2},...,X_{n})的观测值。

4、常用统计量:

(1)样本均值        \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}

(2)样本方差        S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}=\frac{1}{n-1}(\sum_{i=1}^{n}X_{i}^{2}-n\overline{X}^{2})

(3)样本标准差        S=\sqrt{S^{2}}

(4)样本k阶原点矩        A_{k}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k},k=1,2,...

(5)样本k阶中心矩        B_{k}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{k},k=1,2,...

(6)顺序统计量        将样本观测值x_{1},x_{2},...,x_{n}按由小到大的次序重新排列为x_{(1)}\leqslant x_{(2)}\leqslant ...\leqslant x_{(n)},定义X_{(k)}=x_{(k)}(k=1,2,...,n),由此得到的统计量X_{(1)},X_{(2)},...,X_{(n)}称为样本X_{1},X_{2},...,X_{n}顺序统计量X_{(1)}称为最小顺序统计量X_{(n)}称为最大顺序统计量

        对于二维总体(X,Y),常用的统计量有

(1)样本协方差        S_{xy}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})(Y_{i}-\overline{Y})

(2)样本相关系数        \rho _{XY}=\frac{S_{XY}^{2}}{S_{X}S_{Y}}

        其中        S_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}        S_{Y}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}

5、三大分布

        统计量的分布称为抽样分布

(1)\chi ^{2}分布

        设随机变量X_{1},X_{2},...,X_{n}相互独立,并且X_{i}\sim N(0,1),1\leqslant i\leqslant n,则称随机变量\chi ^{2}=X_{1}^{2}+X_{2}^{2}+...+X_{n}^{2}为服从自由度为n的\chi ^{2}分布,记为\chi ^{2}(n),其密度函数为

f_{\chi ^{2}}(x)=\left\{\begin{matrix} \frac{1}{2^{\frac{n}{2}}\Gamma (\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{n}{2}},x> 0 \\ 0,~~~~~~~~~~~~~~~~~~x\leqslant 0 \end{matrix}\right.

E[\chi ^{2}(n)]=n,D[\chi ^{2}(n)]=2n

       \chi ^{2}分布可加性: 若X\sim \chi ^{2}(m),Y\sim \chi ^{2}(n),则X+Y\sim \chi ^{2}(m+n)

(2)t分布(学生分布)

        设随机变量X与Y相互独立,并且X\sim N(0,1),Y\sim \chi ^{2}(n),则称随机变量t=\frac{X}{\sqrt{Y/n}}为服从自由度为n的t分布,记为t(n),其密度函数为

f_{t}(x)=\frac{\Gamma [(n+1)/2]}{\sqrt{n\pi }~\Gamma(n/2) }(1+\frac{x^{2}}{n})^{-\frac{n+1}{2}}

E[t(n)]=0,n>1;D[t(n)]=\frac{n}{n-2},n>2

        t分布的密度函数是偶函数,当自由度n趋于无穷时,t分布将趋近于标准正态分布N(0,1)。一般当n\geqslant 30时,t分布可以近似看作标准正态分布。

(3)F分布

        设随机变量X和Y相互独立,并且X\sim \chi ^{2}(m),Y\sim \chi ^{2}(n),则称随机变量F=\frac{X/m}{Y/n}为服从自由度为(m,n)的F分布,记为F(m,n),其中m,n分别称为第一、二自由度。F分布的密度函数为

f_{F}(x)=\left\{\begin{matrix} \frac{\Gamma [(m+n)/2]}{\Gamma (m/2)\Gamma (n/2)}m^{\frac{m}{2}}n^{\frac{n}{2}}\frac{x^{\frac{m}{2}-1}}{(mx+n)^{\frac{m+n}{2}}},x\geqslant 0 \\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~x< 0 \end{matrix}\right.

E[F(m,n)]=\frac{n}{n-2},n>2;D[F(m,n)]=\frac{2n^{2}(m+n-2)}{m(n-2)^{2}(n-4)},n>4

由定义知,若F\sim F(m,n),则\frac{1}{F}\sim F(n,m)

(4)上分位数(点)

        设随机变量X的分布函数为F(x),满足等式

P(X> x_{\alpha })=1-F(x_{\alpha })=\alpha ,0<\alpha <1

的实数x_{\alpha }称为X\alpha分位数(点)。类似地,可定义\alpha分位数(点)

        1)当n充分大时(n\geqslant 40即可),近似地有

X_{\alpha }^{2}(n)\approx \frac{1}{2}(u_{\alpha }+\sqrt{2n-1})^{2}

        2)由t分布密度函数图形的对称性及上\alpha分位数的定义有

t_{1-\alpha }(n)=-t_{\alpha }(n)

此外,当n\geqslant 30时,有

t_{\alpha }(n)\approx u_{\alpha }

        3)利用上\alpha分位数的定义不难得到

F_{1-\alpha }(m,n)=\frac{1}{F_{\alpha }(n,m)}

6、顺序统计量的分布

        设总体X具有分布函数F(x),其密度函数为f(x)X_{1},X_{2},...,X_{n}是来自总体X的一组样本,则

(1)X_{(1)}的密度函数为

f_{1}(x)=nf(x)[1-F(x)]^{n-1}

(2)X_{(n)}的密度函数为

f_{n}(x)=nf(x)[F(x)]^{n-1}

(3)(X_{(1)},X_{(n)})的联合分布函数为

f(x,y)=\left\{\begin{matrix} n(n-1)f(x)f(y)[F(y)-F(x)]^{n-2},x\leqslant y \\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~x>y \end{matrix}\right.

三、正态总体的抽样分布

1、X_{1},X_{2},...,X_{n}是来自正态总体X\sim N(\mu ,\sigma ^{2})的一组样本,\overline{X},S^{2}分别是样本均值和样本方差,则

(1)\overline{X}\sim N(\mu ,\frac{\sigma ^{2}}{n})U=\frac{\overline{X}-\mu }{\sigma /\sqrt{n}}\sim N(0,1)

(2)\frac{(n-1)S^{2}}{\sigma ^{2}}\sim \chi ^{2}(n-1)

(3)\overline{X}S^{2}相互独立

(4)\frac{\overline{X}-\mu }{S/\sqrt{n}}\sim t(n-1)

2、X_{1},X_{2},...,X_{n}是来自正态总体X\sim N(\mu_{1} ,\sigma_{1} ^{2})的一组样本,Y_{1},Y_{2},...,Y_{n}是来自正态总体Y\sim N(\mu_{2} ,\sigma_{2} ^{2})的一组样本,\overline{X},S_{X}^{2}\overline{Y},S_{Y}^{2}分别表示两组样本的样本均值和样本方差,假定两组样本相互独立,则

(1)\frac{S_{X}^{2}/\sigma _{1}^{2}}{S_{Y}^{2}/\sigma _{2}^{2}}\sim F(m-1,n-1)

(2)当\sigma _{1}^{2}=\sigma _{2}^{2}=\sigma ^{2}时,

\frac{(\overline{X}-\overline{Y})-(\mu _{1}-\mu _{2})}{S_{W}\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2)

其中                ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        S_{W}^{2}=\frac{(m-1)S_{X}^{2}+(n-1)S_{Y}^{2}}{m+n-2}

(3)当m=n时,

\frac{(\overline{X}-\overline{Y})-(\mu _{1}-\mu _{2})}{S\sqrt{n}}\sim t(n-1)

其中        ​​​​​​​        ​​​​​​​        S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}[(X_{i}-Y_{i})-(\overline{X}-\overline{Y})]^{2}=S_{X}^{2}+S_{Y}^{2}-2S_{XY}^{2}

四、数据的整理

1、在实际生活中,我们对总体的分布往往不甚了解,为此需要进行数据整理,以便获取有关总体分布类型的信息。数据的整理主要有列表、作图等方法。

2、如果总体X是离散型随机变量,它的所有可能取值为a_{1},a_{2},...,a_{k}(也可以为可列个)。假定样本的n个观测值为x_{1},x_{2},...,x_{n}。记n_{i}表示x_{1},x_{2},...,x_{n}中取值为a_{i}的个数,称n_{i}频数f_{i}=n_{i}/n频率(n_{1}+n_{2}+...+n_{i})/n累积频率。将它们列成一张表,分别称为频数、频率和累积频率分布表

        根据大数定理知,随着样本容量的增大,频率分布将趋于总体X的概率分布,而累积频率将趋于总体X的分布函数。

3、如果总体X是连续型随机变量函数,其所有可能取值是某一区间,这时可以将总体X的取值范围分成k个小区间,然后统计样本观测值x_{1},x_{2},...,x_{n}落在每一小区间中的频数,并计算其频率和累积频率。

        具体步骤为:

(1)找出x_{1},x_{2},...,x_{n}的最小值x_{(1)}与最大值x_{(n)},并计算极差R_{n}=x_{(n)}-x_{(1)}

(2)根据样本容量n确定分组数k。一般n越大,组数k取的越大。但k不宜过大或过小。

(3)确定各组端点a_{0}< a_{1}< ...< a_{k}。通常a_{0}< x_{(1)},a_{k}>x_{(n)}。在某些情况下,可取a_{0}=-\infty ,a_{k}=+\infty。分组可分等组距不等组距两种,一般取等组距分组,组距d\approx R_{n}/k

(4)统计落在每一区间[a_{i-1},a_{i})中的频数n_{i},并计算频率f_{i}=n_{i}/n及累积频率f_{1}+f_{2}+...+f_{i}

        当总体X是连续型随机变量时,若将频率直方图的纵坐标刻度变为频率/组距,这样每一小矩形的面积即为样本观测值落在该区间的频率,所有小矩形面积之和为1。随着样本容量n越来越大,分组越来越多,此时组距将越来越小,变化刻度后的频率直方图顶部折线将趋于总体X的密度函数曲线,而累积频率直方图顶部折线将趋于总体X的分布函数曲线。

4、设总体X的分布函数为F(x)(未知),其样本观测值为x_{1},x_{2},...,x_{n},将它们从小到大排列成x_{(1)}\leqslant x_{(2)}\leqslant ...\leqslant x_{(n)}。设其中互不相同的共l个,分别为x_{(1)}^{*}\leqslant x_{(2)}^{*}\leqslant ...\leqslant x_{(l)}^{*},其个数分别为n_{1},n_{2},...,n_{l},\sum_{i=1}^{l}n_{i}=n

F_{n}(x)=\left\{\begin{matrix} 0,~~~~~~~~~~~~~~~~x<x_{(1)}^{*}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ \\ \frac{n_{1}+n_{2}+...+n_{k}}{n},~~~x_{(k)}^{*}\leqslant x<x_{(k+1)}^{*},k=1,2,...,l-1 \\ 1,~~~~~~~~~~~~~~~~x\geqslant x_{(l)}^{*}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ \end{matrix}\right.

则称F_{n}(x)为该样本的经验分布函数

        经验分布函数完全由样本观测值确定,它具有分布函数的性质。对于固定的x,F_{n}(x)表示事件\left \{ X\leqslant x \right \}在n次独立试验中出现的概率。由大数定律可知,在满足一定条件下,事件发生的频率依概率收敛于这个事件发生的概率。当试验次数n增大时,样本的经验分布函数F_{n}(x)会接近于总体的分布函数。

5、格利文科定理:设总体\xi的分布函数为F(x),经验分布函数为F_{n}(x),对于任何实数x,记

D_{n}=\sup_{-\infty < x< +\infty }\left | F_{n}(x)-F(x) \right |

则有        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        P\left \{ \lim_{n\rightarrow \infty }D_{n}=0 \right \}=1

        格利文科定理证明了统计量D_{n}以概率为1地收敛于0。通俗地说,就是当n足够大时,对于所有x值,F_{n}(x)F(x)之差的绝对值都很小这个事件发生的概率接近于1。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值