参数估计包括点估计和区间估计两类。
点估计
点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。
点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如,用样本均值x直接作为总体均值μ的估计值,用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、最大似然法、最小二乘法。
矩估计法:矩是指以期望为基础而定义的数字特征,一般分为原点矩和中心矩。设X为随机变量,对任意正整数k,称E(Xk)为随机变量X的k阶原点矩,记为:
mk=E(Xk)
m
k
=E(X
k
)
当k=1时,m1=E(X)=μ,可见一阶原点矩为随机变量X的数学期望。
把Ck=E[X-E(X)]k称为以E(X)为中心的k阶中心矩。显然,当k=2时,C2=E[X-E(x)]2=σ2,可见二阶中心矩为随机变量X的方差。
顺序统计量法:用样本中位数估计总体的数学期望的方法称数学期望的顺序统计量估计法。顺序统计量估计法的优点是计算简便,且中位数不易受个别异常数据的影响.如果一组样本值某一数据异常(如过于小或过于大),则这个异常数据可能是总体的随机性造成的,也可能是受外来干扰造成的(如工作人员粗心,记录错误),当原因属于后者,用样本平均值估计E(x)显然受到影响,但用样本中位数估计总体期望时,由于一个(甚至几个)异常的数据不易改变中位数的取值,所以估计值不易受到影响。
最大似然法(Maximum Likelihood):它用来求一个样本集的相关概率密度函数的参数。
最小二乘法(generalized least squares):是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 最小二乘法是用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 最小二乘法通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。
区间估计
区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。
区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。
如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence level),也称为置信度或置信系数(confidence coefficient)。
区间估计的正确理解方式:区间估计并不是总体参数落在某个区间的概率,而是抽取的多个样本中有多大的概率包含总体参数,由此通过概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。
一个总体参数的区间估计
研究一个总体时,所关心的参数主要有总体均值μ、总体比例π和总体方差σ2等。
总体均值的区间估计
对总体均值进行区间估计时,需要考虑总体是否为正态分布,总体方差是否已知,用于构造估计量的样本是大样本(通常要求n≥30)还是小样本(n<30)等几种情况。下面分两种情况来分析:
(1)正态总体、方差已知,或非正态总体、大样本
当总体服从正态分布且方差已知,或总体非正态分布但样本为大样本时,样本均值x的抽样分布服从正态分布,其数学期望为总体均值μ,方差为σ2/n。样本均值经过标准化后的随机变量则服从正态分布,即
z=x¯−μσ/n√∼N(0,1)
z
=
x
‾
−
μ
σ
/
n
∼
N
(
0
,
1
)
z=
σ/
n
x
−μ
∼N(0,1)
根据式上式和正态分布的性质可以得出总体均值μ在1-α置信水平下的置信区间为:
x¯±zα/2σn√
x
‾
±
z
α
/
2
σ
n
x
±z
α/2
n
σ
(2)正态总体、方差未知、小样本
在总体服从正态分布的情况下,如果总体方差σ2未知,且样本较小的情况下,需要用样本方差s2代替σ2。这时,样本均值经过标准化以后的随机变量服从自由度为(n-1)的t分布,即
t=x¯−μs/n√∼t(n−1)
t
=
x
‾
−
μ
s
/
n
∼
t
(
n
−
1
)
t=
s/
n
x
−μ
∼t(n−1)
因此需要采用t分布来建立总体均值μ的置信区间。根据t分布建立的总体均值μ在1-α置信水平下的置信区间为:
x¯±tα/2sn√
x
‾
±
t
α
/
2
s
n
x
±t
α/2
n
s
总体比例的区间估计
在大样本的前提下,样本比例p的抽样分布可用正态分布近似。p的数学期望为E§=π,p的方差为σ2p=π(1-π)/n。而样本比例经标准化后的随机变量则服从标准正态分布,即
z=p−ππ(1−π)/n√∼N(0,1)
z
=
p
−
π
π
(
1
−
π
)
/
n
∼
N
(
0
,
1
)
z=
π(1−π)/n
p−π
∼N(0,1)
与总体均值的区间估计类似,在样本比例p的基础上加减估计误差zα/2σp,即得总体比例π在1-α置信水平下的置信区间为:
p±zα/2π(1−π)n−−−−−√
p
±
z
α
/
2
π
(
1
−
π
)
n
p±z
α/2
n
π(1−π)
当通过上式计算总体比例π的置信区间时,π值应该是已知的。但实际情况不然,π值恰好是要估计的,所以需要用样本比例p来代替π。这种情况下,总体比例的置信区间可表示为:
p±zα/2p(1−p)n−−−−−√
p
±
z
α
/
2
p
(
1
−
p
)
n
p±z
α/2
n
p(1−p)
总体方差的区间估计
对于总体方差的估计,这里只讨论正态总体方差的估计。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布。因此用χ2分布构造总体方差的置信区间。
总体方差σ2在1-α置信水平下的置信区间为:
(n−1)s2χ2α/2≤σ2≤(n−1)s2χ21−α/2
(
n
−
1
)
s
2
χ
α
/
2
2
≤
σ
2
≤
(
n
−
1
)
s
2
χ
1
−
α
/
2
2
χ
α/2
2
(n−1)s
2
≤σ
2
≤
χ
1−α/2
2
(n−1)s
2
两个总体参数的区间估计后续讨论。
样本量的确定
通过区间估计可以了解到样本量的选择对于问题的求解至关重要,大样本(n≥30)和小样本(n<30)求解的方法不同。同样是大样本选择多大的样本来估计参数比较合适?
通常,样本量的确定与可以容忍的置信区间的宽度以及对此区间设置的置信水平有一定关系。因此如何确定一个适当的样本量,也是抽样估计中需要考虑的问题。
估计总体均值时样本量的确定
总体均值的置信区间是由样本均值x和估计误差两部分组成的。在重复抽样或无限总体抽样条件下,估计误差为:
zα/2σn√
z
α
/
2
σ
n
z
α/2
n
σ
其中zα/2的值和样本n共同确定了估计误差的大小。当确定了置信水平1-α,zα/2的值就确定了。对于给定的zα/2的值和总体标准差σ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即:
E=zα/2σn√
E
=
z
α
/
2
σ
n
E=z
α/2
n
σ
通过上式可以推导出确定样本量的公式如下:
n=(zα/2)2σ2E2
n
=
(
z
α
/
2
)
σ
2
E
2
n=
E
2
(z
α/2
)
2
σ
2
式中的E值是使用者在给定的置信水平下可以接受的估计误差,zα/2的值可直接由区间估计中所用到的置信水平确定。当σ未知时,可以用样本的标准差来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的标准差作为σ的估计值。
从上式可以看出,样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小。
估计总体比例时样本量的确定
与估计总体均值时样本量确定的方法类似,在重复抽样或无限总体抽样条件下,估计总体比例置信区间的估计误差为:
zα/2π(1−π)n−−−−−√
z
α
/
2
π
(
1
−
π
)
n
z
α/2
n
π(1−π)
由上式可知,zα/2的值、总体比例π和样本量n共同确定了估计误差的大小。令E代表所希望达到的估计误差,即:
E=zα/2π(1−π)n−−−−−√
E
=
z
α
/
2
π
(
1
−
π
)
n
E=z
α/2
n
π(1−π)
据此可以推导出重复抽样或无限总体抽样条件下确定样本量的公式如下:
n=(zα/2)2π(1−π)E2
n
=
(
z
α
/
2
)
π
(
1
−
π
)
E
2
n=
E
2
(z
α/2
)
2
π(1−π)
式中的估计误差E必须是使用者事先确定的,大多数情况下,一般取E的值小0.10。zα/2的值可直接由区间估计中所用导的置信水平确定。如果π未知,可以用类似的样本比例来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的比例作为π的估计值。当π的值无法知道时,通常取使π(1-π)最大时的0.5。
————————————————
版权声明:本文为CSDN博主「Renirvana」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Renirvana/article/details/100406273