统计-样本及抽样分布

第六章 样本及抽样分布

在概率中,我们所研究的随机变量的分布都是假设已知的。

在数理统计中,我们研究的随机变量的分布是未知的,或者是不完全知道的。我们通过对随机变量进行大量重复、独立的观察,收集书记,然后对数据进行整理,分析,从而对所研究的随机变量的分布作出各种推断。

随机样本

总体与个体

在数理统计中,我们把研究的对象的全体称为 总 体 ,总体中的每个成员称 个 体

在实际问题中,我们只对总体的某些数量指标感兴趣。这时,我们就把这些数量指标(如人的体重,学生的成绩)的全体作为 总 体 ,把每个数值作为 个 体

总体中包含的个体的数量称为总体的 容 量

容量为有限的总体称为 有 限 总 体 ,

容量为无限的总体称为 无 限 总 体 ,

若有限总体容量很大,可以视为无线总体。

总体中的每一个个体是随机试验的一个观察值x,它是某个随机变量X的取值。

例如总体是一群人的身高,身高X是一个随机变量,每个身高x是X的一个取值。

这样,一个总体对应一个随机变量X。

我们对总体的研究就是对这个随机变量X的研究。

X的分布函数和树脂2特征就称为总体的分布函数和数字特征。

进货我们将不区分总体与相应的随机变量,统称为总体X。

随机样本

从总体X中抽得的一部分个体叫做总体的一个样本。

从总体抽取一个个体,就是对总体X进行一次观察并记录结果。

我们在相同条件下对总体X进行n次反复独立的观察,并将n次观察结果按试验次序记为X1,…,Xn。由于每次观察结果也是随机的,因此这些Xi都是随机变量。

X1,…Xn是相互独立的,有与X相同分布的随机变量(独立同分布

从总体X中抽得n个个体X1,…,Xn称来自总体X的容量为n的 样 本 ,而每个个体Xi称为一个 样 本 点

它们依次是X1,…,Xn的样本观察值,简称 样 本 值

简单随机抽样

从总体中抽取样本必须满足一下两个条件:

1.随机性:抽样应随机进行,使得每个个体被抽到的机会均等。

2.独立性:每次抽样应独立惊喜,结果不受其他抽样结果影响,也不影响其他抽样结果。

满足以上两个条件抽样称为简单随机抽样。

对于有限总体,采用有放回抽样。

对应无线总体或大容量总体,采用不放回抽样。

后面提到抽样都是假设简单随机抽样。

总体,个体,简单随机抽样是数理统计中三个最基本的概念。

简单随机变量具有独立性和代表性(同分布)两个特征。

样本的分布函数和密度函数

设总体X是具有分布函数F的随机变量,若X1,…,Xn是X的一个容量为n的简单随机样本,则X1,…,Xn是具有同一分布函数F,且相互独立的随机变量。

我们也称X1,…,Xn为从分布函数F得到的容量为n的简单随机样本(简称样本),

它们的观察值X1,…,Xn称为样本值,又称为X的n个独立观察值。

所以(X1,…,Xn)的联合分布函数为

F(X1,..,Xn)=F(x1)F(Xn)=ni=1F(xi) F ∗ ( X 1 , . . , X n ) = F ( x 1 ) … F ( X n ) = ∏ i = 1 n F ( x i )

若X具有概率密度f,则(X1,…,Xn)的联合概率密度为

f(X1,..,Xn)=f(x1)f(Xn)=ni=1f(xi) f ∗ ( X 1 , . . , X n ) = f ( x 1 ) … f ( X n ) = ∏ i = 1 n f ( x i )

若总体X是离散型随机变量,分布律为P{X=x}=p(x),则(X1,…,Xn)的联合分布律为

P{ X1=x1,..,Xn=Xn X 1 = x 1 , . . , X n = X n }= p(x1)p(xn) p ( x 1 ) … p ( x n )

例如总体X服从0-1分布b(1,p)

p{X=x}=p(x)= pxq1x p x q 1 − x

p(x1)p(xn) p ( x 1 ) … p ( x n ) = ni=1pxiq1Xi ∏ i = 1 n p x i q 1 − X i = pni=1xiqnni=1zi p ∑ i = 1 n x i q n − ∑ i = 1 n z i

直方图和箱线图

统计量

定义

设X1,…,Xn是来自总体X的一个样本,g(X1,…,Xn)是X1,…,Xn的函数,若g中不含未知数,则称g(X1,…,Xn)是一个统计量。

因为X1,…,Xn都是随机变量,故统计量g(X1,…,Xn)作为X1,…,Xn的函数,也是随机变量。

设X1,…,Xn是相应于样本X1,…,Xn的样本值,则称g(X1,…,Xn)是统计量g(X1,…,Xn)的观测值。

常用统计量

设X1,…,Xn是来自总体X的一个样本,X1,…,Xn是这一样本的观察值。

统计平均值(样本均值)Sample means

X=1nbi=1Xi X ¯ = 1 n ∑ i = 1 b X i

相应的观察值 x=1nbi=1xi x ¯ = 1 n ∑ i = 1 b x i

样本方差 Sample variance

S2=1n1ni=1(XiX)2 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ¯ ) 2

相应的观察值 s2=1n1ni=1(xix)2 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) 2

样本标准差 Sample standard deviation

S=S2=1n1ni=1(XiX)2 S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ¯ ) 2

相应的观察值

s=1n1ni=1(xix)2 s = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) 2

样本k阶(原点)矩 k-th monent of the sample

Ak=1nni=1Xki A k = 1 n ∑ i = 1 n X i k k=1,2,..

相应的观察值 ak=1nni=1xki a k = 1 n ∑ i = 1 n x i k

样本k阶中心矩

Bk=1nni=1(XiX)k B k = 1 n ∑ i = 1 n ( X i − X ¯ ) k

相应的观察值 bk=1nni=1(xix)k b k = 1 n ∑ i = 1 n ( x i − x ¯ ) k

总体X的方差 σ2X=1Nni=1(XiX)2 σ X 2 = 1 N ∑ i = 1 n ( X i − X ¯ ) 2

总体均值 X=1NNi=1Xi X ¯ = 1 N ∑ i = 1 N X i

当样本X1,..,Xn容量较少是

总体方差较小,故样本方差修正为n-1

对于较大的n,两者几无差异。

若总体X的k阶矩 E(Xk)=μk E ( X k ) = μ k 存在,则当n趋于无穷大是,样本k阶矩将依概率收敛与总体的k阶矩,即

AkPμ A k → P μ Ak=1nni=1Xki A k = 1 n ∑ i = 1 n X i k

具体的说,

ϵ>0limnP{|Akμk|<ϵ}=1 ∀ ϵ > 0 l i m n → ∞ P { | A k − μ k | < ϵ } = 1

事实上,因为X1,..,Xn独立且同分布

Xk1,,Xkn X 1 k , … , X n k 也是独立且同分布

所以 E(Xk1)=...=E(Xkn)=μk E ( X 1 k ) = . . . = E ( X n k ) = μ k

再由辛钦大数定律

Ak=1nni=1XkiPμk A k = 1 n ∑ i = 1 n X i k → P μ k

g(A1,,Ak)Pg(μ1,..,μk) g ( A 1 , … , A k ) → P g ( μ 1 , . . , μ k )

g是连续函数

抽样分布

χ2 χ 2 分布

定义

设X1,..,Xn是来自总体N(0,1)的样本,即X1,..,Xn相互独立且都服从标准正态分布,则称统计量(它们的平方和)

χ2=X21+...+X2n χ 2 = X 1 2 + . . . + X n 2

服从自由度为n的 χ2 χ 2 分布

记为 χ2 χ 2 ~ χ2 χ 2 (n)

自由度是指等式右端包含的独立变量的个数。

概率密度

fn(x)=12n2Γ(n2)xn21ex2,x>0x,x0 f n ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − x 2 , x > 0 x , x ≤ 0

其中 Γ(s)=+0exxs1dx Γ ( s ) = ∫ 0 + ∞ e − x x s − 1 d x Γ(s)=2+0ex2x2s1dx Γ ( s ) = 2 ∫ 0 + ∞ e − x 2 x 2 s − 1 d x

推导
可加性

设~ χ2 χ 2 ( n1 n 1 ) χ22 χ 2 2 ~ χ2 χ 2 ( n2 n 2 )

且它们相互独立,则有

χ21+χ22 χ 1 2 + χ 2 2 ~ χ2 χ 2 ( n1+n2 n 1 + n 2 )

期望

E( χ2 χ 2 )=n

方差

D( χ2 χ 2 )=2n

分位点

t分布

定义

设X~N(0,1),Y~ χ2 χ 2 (n),且X,Y相互独立,则称随机变量

t= XY/n X Y / n

服从自由度为n的t分布(学生氏分布),记为t~t(n)

概率密度

h(t)= Γ[(n+1)/2]πnΓ(n/2)(1+t2n)(n+1)/2 Γ [ ( n + 1 ) / 2 ] π n Γ ( n / 2 ) ( 1 + t 2 n ) − ( n + 1 ) / 2

偶函数,y轴对称

E(X)=0

limnh(t)=12πet2/2 lim n → ∞ h ( t ) = 1 2 π e − t 2 / 2

n足够大是t分布近似于N(0,1)分布,较小时,相差较大

分位点

对于一个概率数 α α (0< α α <1)$,怎么求c,使得概率

P{t>c}=α P { t > c } = α ?

这个点c称为t分布的 α 上 α 分 位 点 ,记为 tα(n) t α ( n )

α=P{t>tα(n)}=+tα(n)tn(x)dx α = P { t > t α ( n ) } = ∫ t α ( n ) + ∞ t n ( x ) d x

F分布

定义

设U~ χ2(n1) χ 2 ( n 1 ) ,U~ χ2(n2) χ 2 ( n 2 ) 且U,V相互独立,则称随机变量

F= U/n1V/n2 U / n 1 V / n 2

服从自由度为( n1,n2 n 1 , n 2 )的F分布,记为F~F( n1,n2 n 1 , n 2 )

其中 n1 n 1 叫第一自由度, n2 n 2 叫第二自由度。

概率密度

fn(x)=Γ(n1+n22)Γ(n12)Γ(n22)(n1n2)n12xn121(1+n1n2)n1+n22,x>00,x0 f n ( x ) = { Γ ( n 1 + n 2 2 ) Γ ( n 1 2 ) Γ ( n 2 2 ) ( n 1 n 2 ) n 1 2 x n 1 2 − 1 ( 1 + n 1 n 2 ) − n 1 + n 2 2 , x > 0 0 , x ≤ 0

F分布的性质

设U~ χ2(n1) χ 2 ( n 1 ) ,U~ χ2(n2) χ 2 ( n 2 ) 且U,V相互独立,则F= U/n1V/n2 U / n 1 V / n 2 ~F( n1,n2 n 1 , n 2 )

于是 1F 1 F = V/n2U/n1 V / n 2 U / n 1 ~F( n2,n1 n 2 , n 1 )

F分布的应用模式

X1 X 1 ,…, Xm X m , Y1 Y 1 ,…, Yn Y n 相互独立且都服从N(0,1)则

(X21+...+X2m)(Y21+...+Y2n) ( X 1 2 + . . . + X m 2 ) ( Y 1 2 + . . . + Y n 2 ) ~F(m,n)

分位点

对于一个概率数 α α (0< α α <1)$,怎么求c,使得概率

P{F>c}=α P { F > c } = α ?

这个点c称为F分布的 α 上 α 分 位 点 ,记为 Fα(n1,n2) F α ( n 1 , n 2 )

α=P{F>Fα(n1,n2)}=+Fα(n1,n2)f(x)dx α = P { F > F α ( n 1 , n 2 ) } = ∫ F α ( n 1 , n 2 ) + ∞ f ( x ) d x

正态总体的样本均值和样本方差的分布

命题1

设有总体X,其数学期望E(X)= μ μ ,方差D(X)= σ2 σ 2

X1,X2,...,Xn X 1 , X 2 , . . . , X n 是来自总体X的一个样本,则

E( X X ¯ )= μ μ =E(X)

D( X X ¯ )= σ2n σ 2 n = D(X)n D ( X ) n

E( S2 S 2 )= σ2 σ 2 =D(X)

证明

(1)E( X X ¯ )= μ μ =E(X)

X1,X2,...,Xn X 1 , X 2 , . . . , X n 相互独立且服从同一分布。

E( X X ¯ )==E( 1ni=1nE(Xi) 1 n ∑ i = 1 n E ( X i ) )= 1ni=1nE(Xi) 1 n ∑ i = 1 n E ( X i ) = 1nnμ 1 n n μ = μ μ =E(X)

样本均值的期望值等于总体X的期望值。

样本均值取值平均大小等于总体X取值平均大小

(2)D( X X ¯ )= σ2n σ 2 n = D(X)n D ( X ) n

D( X X ¯ )=D( 1ni=1nE(Xi) 1 n ∑ i = 1 n E ( X i ) )= 1n2i=1nD(Xi) 1 n 2 ∑ i = 1 n D ( X i ) = 1n2nσ2 1 n 2 n σ 2 = σ2n σ 2 n = D(X)n D ( X ) n

样本均值的方差仅为总体X的方差的1/n

当样本容量n增大时,样本均值的方差远小于总体的方差,说明样本均值关于数学期望 μ μ 的集中程度远比总体的集中程度高。当n很大时,样本均值会密集在 μ μ 附近

(3)E( S2 S 2 )= σ2 σ 2 =D(X)

E( S2 S 2 )= E[1n1(i=1nX2inX2)] E [ 1 n − 1 ( ∑ i = 1 n X i 2 − n X ¯ 2 ) ] = 1n1[i=1nE(X2i)nE(X2)] 1 n − 1 [ ∑ i = 1 n E ( X i 2 ) − n E ( X ¯ 2 ) ] = 1n1[n(σ2+μ2)n(σ2n+μ2)] 1 n − 1 [ n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) ] = σ2 σ 2 =D(X)

样本方差取值平均大小与总体X的方差大小相等

定理1(正态总体的样本均值的分布)

X1,X2,...,Xn X 1 , X 2 , . . . , X n 是来自正态总体N( μ,σ2 μ , σ 2 )的一个样本,则

X X ¯ ~N( μ,σ2n μ , σ 2 n )

证明

X1,X2,...,Xn X 1 , X 2 , . . . , X n 相互独立且服从同一正态分布。

由正态分布的线性组合性质( C1X1+C2X2+...+CnXn C 1 X 1 + C 2 X 2 + . . . + C n X n ~N( i=1nCiμ,i=1nC2iσ2i ∑ i = 1 n C i μ , ∑ i = 1 n C i 2 σ i 2 ))

X X ¯ = 1ni=1nXi 1 n ∑ i = 1 n X i ~N( i=1n1nμ,i=1n1n2σ2 ∑ i = 1 n 1 n μ , ∑ i = 1 n 1 n 2 σ 2 )=N( μ,σ2n μ , σ 2 n )

标准化后得 Z= Xμσ X − μ σ ~N(0,1)= Xμσ/n X ¯ − μ σ / n ~N(0,1)

当n较大时,样本均值比总体更加集中在 μ μ 附近。

定理2(正态总体的样本方差的分布)

X1,X2,...,Xn X 1 , X 2 , . . . , X n 是来自正态总体N()的一个样本,则

(1) (n1)S2σ2 ( n − 1 ) S 2 σ 2 ~ χ2 χ 2 (n-1)

(2) X X ¯ S2 S 2 相互独立

定理3(正态总体的样本均值与样本方差的分布)

X1,X2,...,Xn X 1 , X 2 , . . . , X n 是来自正态总体N()的一个样本,则

(Xμ)S/n ( X ¯ − μ ) S / n ~t(n-1)

证明

由定理1,U= Xμσ/n X ¯ − μ σ / n ~N(0,1)

定理2,v= (n1)S2σ2 ( n − 1 ) S 2 σ 2 ~ χ2 χ 2 (n-1)

定理2, X X ¯ S2 S 2 相互独立的与V独立

由t分布定义,设X~N(0,1),Y~\chi^2(n),且X,Y相互独立,则称随机变量

t= XY/n X Y / n ~t(n) U相当于X,V相当于Y

得到 UV/(n1) U V / ( n − 1 ) ~t(n-1)

UV/(n1) U V / ( n − 1 ) = Xμσ/n(n1)S2σ2/(n1) X ¯ − μ σ / n ( n − 1 ) S 2 σ 2 / ( n − 1 ) = (Xμ)S/n ( X ¯ − μ ) S / n

命题2

X1,X2,...,Xn1 X 1 , X 2 , . . . , X n 1 Y1,Y2,...,Yn2 Y 1 , Y 2 , . . . , Y n 2 分别是来自正态总体N( μ1,σ21 μ 1 , σ 1 2 )和N( μ,σ22 μ , σ 2 2 )的样本,且这两个样本相互独立,则

1n1σ21i=1n1(Xiμ1)21n2σ22i=1n2(Yiμ2)2 1 n 1 σ 1 2 ∑ i = 1 n 1 ( X i − μ 1 ) 2 1 n 2 σ 2 2 ∑ i = 1 n 2 ( Y i − μ 2 ) 2 ~F( n1,n2 n 1 , n 2 )

证明

X1,X2,...,Xn1 X 1 , X 2 , . . . , X n 1 相互独立且服从N( μ1,σ21 μ 1 , σ 1 2 )

标准化得 Xiμ1σ1 X i − μ 1 σ 1 ~N(0,1)

则通过 χ21+χ22 χ 1 2 + χ 2 2 ~ χ2 χ 2 ( n1+n2 n 1 + n 2 )得 U= i=1n1(Xiμ1σ1)2 ∑ i = 1 n 1 ( X i − μ 1 σ 1 ) 2 ~ χ2(n1) χ 2 ( n 1 )

同理V= i=1n2(iμ2σ2)2 ∑ i = 1 n 2 ( i − μ 2 σ 2 ) 2 ~ χ2(n)2 χ 2 ( n ) 2

U与V相互独立

通过f分布定义设U~ χ2(n1) χ 2 ( n 1 ) ,U~ χ2(n2) χ 2 ( n 2 ) 且U,V相互独立,则F= U/n1V/n2 U / n 1 V / n 2 ~F( n1,n2 n 1 , n 2 )

得到

1n1σ21i=1n1(Xiμ1)21n2σ22i=1n2(Yiμ2)2 1 n 1 σ 1 2 ∑ i = 1 n 1 ( X i − μ 1 ) 2 1 n 2 σ 2 2 ∑ i = 1 n 2 ( Y i − μ 2 ) 2 ~F( n1,n2 n 1 , n 2 )

定理4(两个正态总体的样本均值与样本方差的分布)

X1,X2,...,Xn1 X 1 , X 2 , . . . , X n 1 Y1,Y2,...,Yn2 Y 1 , Y 2 , . . . , Y n 2 分别是来自正态总体N( μ1,σ21 μ 1 , σ 1 2 )和N( μ,σ22 μ , σ 2 2 )的样本,且这两个样本相互独立,设 X,S21 X ¯ , S 1 2 X,S22 X ¯ , S 2 2 分别是这两个样本的样本均值和样本方差,则有

(1) S21/σ21S22/σ22 S 1 2 / σ 1 2 S 2 2 / σ 2 2 ~F( n11,N21 n 1 − 1 , N 2 − 1 )

证明

由定理2,U= (n11)S21σ21 ( n 1 − 1 ) S 1 2 σ 1 2 ~ χ2 χ 2 ( n11 n 1 − 1 ),V= (n2)S22σ22 ( n 2 − ) S 2 2 σ 2 2 ~ χ2 χ 2 ( n21 n 2 − 1 )且它们相互独立

有F分布定义得

U/n11V/n21 U / n 1 − 1 V / n 2 − 1 = S21/σ21S22/σ22 S 1 2 / σ 1 2 S 2 2 / σ 2 2 ~F( n11,n21 n 1 − 1 , n 2 − 1 )

推论 若 σ21=σ22 σ 1 2 = σ 2 2

S21S22 S 1 2 S 2 2 ~F( n11,n21 n 1 − 1 , n 2 − 1 )

(2) X±Y X ¯ ± Y ¯ ~N( μ1±μ2,σ21n1+σ22n2 μ 1 ± μ 2 , σ 1 2 n 1 + σ 2 2 n 2 )

标准化后得 X±Y(μ1±μ2)σ21n1+σ22n2 X ¯ ± Y ¯ − ( μ 1 ± μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ~N(0,1)

证明

由定理一得 X X ¯ ~N( μ1,σ21n1 μ 1 , σ 1 2 n 1 )

Y Y ¯ ~N( μ2,σ22n2 μ 2 , σ 2 2 n 2 )

通过正态分布线性性质得

X±Y X ¯ ± Y ¯ ~N( μ1±μ2,σ21n1+σ22n2 μ 1 ± μ 2 , σ 1 2 n 1 + σ 2 2 n 2 )

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值