统计量及其分布
这章的核心是认识经验分布函数,统计量以及三大抽样分布,这些构成了数理统计的基础。数理统计围绕着总体和样本,希望通过了解样本的情况,提出相应的统计量,并通过了解统计量的分布,也即抽样分布来估计总体参数。
经验分布函数参考经验分布函数与格里纹科定理
统计量
统计量是什么?从定义上说,统计量是不含未知参数的样本函数。统计量是一个函数,是对样本信息的一个精炼提取,以此反映总体情况的工具。我们通常记统计量为
T=T(x1,x2...xn)
T
=
T
(
x
1
,
x
2
.
.
.
x
n
)
常用的统计量有,样本均值,样本方差,样本峰度,样本偏度。
对于统计量的分布,称为抽样分布。通过了解抽样分布可以得到总体参数的点估计与区间估计,达到样本估计总体的目的。
充分统计量
统计量中有一个重要的概念是充分统计量,从数学上讲,样本的条件分布与总体参数无关,则T即为充分统计量,即
通俗来讲意即我们定义的统计量T能够涵盖样本的所有信息,由此可导出 充分性原则:
对总体参数的估计都应基于充分统计量,并且UMVUE(一致最小方差无偏估计)一定可表示为充分统计量的函数
通常来说,充分统计量即用到了全部样本信息的统计量,如样本均值(是所有样本值的平均),样本的次序统计量( x(i)是将所有样本排序后得到的 x ( i ) 是 将 所 有 样 本 排 序 后 得 到 的 ),不难理解这样的统计量能概括所有的样本信息,因此更适合做统计推断。关于UMVUE将在以后的微博阐述。
因子分解定理
要是每次都通过求样本的条件分布来判断充分统计量,是非常困难且计算量大的。这里给出因子分解定理,将能帮助判断是否是充分统计量:
设总体密度函数为 f(x;θ),x1......xn是样本,T(x1......xn)为充分统计量的充要条件是:存在两个函数g(t,θ)和h(x1......xn)使得对于任意的θ和任意一组x1......xn,有f(x1......xn)=g(T(x1......xn),θ)×h(x1......xn) f ( x ; θ ) , x 1 . . . . . . x n 是 样 本 , T ( x 1 . . . . . . x n ) 为 充 分 统 计 量 的 充 要 条 件 是 : 存 在 两 个 函 数 g ( t , θ ) 和 h ( x 1 . . . . . . x n ) 使 得 对 于 任 意 的 θ 和 任 意 一 组 x 1 . . . . . . x n , 有 f ( x 1 . . . . . . x n ) = g ( T ( x 1 . . . . . . x n ) , θ ) × h ( x 1 . . . . . . x n )
接下来判断充分统计量即找出相应的g和h了。举个例子:
假设总体服从指数分布
Exp(λ)
E
x
p
(
λ
)
,密度函数为
f(x;θ)=λe−λx
f
(
x
;
θ
)
=
λ
e
−
λ
x
,则
f(x1......xn)=λne−λ∑ni=1xi
f
(
x
1
.
.
.
.
.
.
x
n
)
=
λ
n
e
−
λ
∑
i
=
1
n
x
i
令
T(x1......xn)=x¯,g(T,λ)=λne−λnx¯,h(x1......xn)=1
T
(
x
1
.
.
.
.
.
.
x
n
)
=
x
¯
,
g
(
T
,
λ
)
=
λ
n
e
−
λ
n
x
¯
,
h
(
x
1
.
.
.
.
.
.
x
n
)
=
1
,
则易得
f(x1......xn)=g(T(x1......xn),λ)×h(x1......xn)
f
(
x
1
.
.
.
.
.
.
x
n
)
=
g
(
T
(
x
1
.
.
.
.
.
.
x
n
)
,
λ
)
×
h
(
x
1
.
.
.
.
.
.
x
n
)
因此
x¯
x
¯
是充分统计量。
通过这种方式,判断充分统计量变得容易的多。
三大抽样分布
下面将阐述统计学中三大重要的抽样分布卡方分布,F分布与t分布,基于这三种分布可得到许多假设检验方式。
卡方分布
设 X1......Xn X 1 . . . . . . X n 是来自总体N(0,1)的独立同分布样本,称 ∑i=1nX2i ∑ i = 1 n X i 2 的分布为自由度为n的 χ2 χ 2 分布,记为 χ2 χ 2 (n).
χ2(n)即Ga(n2,12) χ 2 ( n ) 即 G a ( n 2 , 1 2 ) ,因此均值为n,方差为2n
F分布
设X ~ χ2(n) χ 2 ( n ) ,Y ~ χ2(m) χ 2 ( m ) 相互独立,称 X/nY/m X / n Y / m 服从F分布,记为F(n,m)
由此可知,F分布由两个服从卡方分布的随机变量构造而来。
t分布
设X ~ N(0,1),Y ~ χ2(n) χ 2 ( n ) 相互独立,称 XY/n√ X Y / n 服从t分布,记为t(n)
当n=1时,t分布为柯西分布,n>1时期望为0,n>2时方差有限且等于 nn−2 n n − 2 ,因此可以发现t分布是对称的,且当n-> +∞ + ∞ 时,方差趋于1,t分布逐渐趋于标准正态分布。