导读:
第六章 抽样推断
一.参数与统计量
参数是指描述总体分布状况的数;
统计量是指由样本构造出来的数。
例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数;在班级中抽出10名学生,了解其年龄,并根据10名学生的年龄计算平均数为21.5岁,则21.5即为由样本构造出来的统计量。
抽样推断,就是由统计量推断总体的过程。
二.有放回条件下的简单随机抽样( Simple Random Sampling )误差计算
1 .样本平均数的分布
从一个总体中抽出一部分单位,构成一个样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本平均数,这些样本平均数具有自己的分布形式。根据大数定理,当样本量超过30时,样本平均数的分布为正态分布。
2 .基本公式
在有放回条件下,简单随机抽样的误差计算公式如下
3 .统计推断
利用正态分布的特征,可以计算出落在各个区间内的概率。区间的大小一般可以用一个概率度来表示。
查标准正态分布表,可以获得下列概率度与概率值的对应关系
概率度(t) 概率值( p ) 概率度( t ) 概率值( p )
1.28 80% 1 68.27%
1.64 90% 2 95.45%
1.96 95% 3 99.73%
2.58 99%
考察这样一个例子:
某总体标准差为100,平均值为40,抽出一个36个单位构成的样本,试在95%的置信度水平下,估计样本平均数的范围。
从此例子可以逆推:
某总体标准差为100,其一个36个单位组成的样本的平均数为40,试在95%的置信度水平下,估计总体平均数的范围。
4 .利用样本标准差推断总体标准差
在实践中,可以使用样本的标准差作为总体标准差的无偏估计量。
考察这样一个例子:
在一批材料中抽查20根测得重量数值如下(单位:公斤)
110 111 111 112 113 114 114 114 115
116 116 117 118 119 119 119 119 120
121 124
试估计这批材料的平均重量,在95%的置信度水平下列出置信区间。
5 .无放回条件下的简单随机抽样误差
可以简化作
三.影响抽样误差的因素
根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:
1.目标总体的变异程度
目标总体的变异程度()是影响抽样误差的最主要的因素之一,总体的变异程度越大,在确定样本下的抽样误差越大。
2.样本容量
对于一个确定的总体,减小抽样误差的主要手段就是增加样本量。从公式中可以知道,抽样误差与样本量的平方根成正比,欲使抽样误差缩小一半,必须使样本量增加到原来的四倍。
3.抽样方式
有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。
需要注意,在抽样比()非常小的情况下,无放回抽样与有放回抽样的误差基本是相同的,可以利用有放回抽样的误差计算公式来代替无放回的情况。在这一公式中,没有总体单位数N的存在,也就是说,当抽样比非常小的情况下,总体单位数的大小对于抽样误差没有影响。
这就说明了为什么在大城市进行调查和在小城市进行调查,要获得同样的精度时,所需的样本量相差无几。
4.抽样的组织形式。
抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。
四.样本量的计算
1 .简单随机抽样条件下样本量的计算公式
样本量的计算方式是基于无放回简单随机抽样的误差计算公式
为使抽样估计的误差范围小于某个指定的,需要使样本量n的值满足下列式子:
由此计算出来的n是简单随机抽样条件下的样本量。
考虑这样一个例子:
已知某总体的标准差为100,欲在95%的置信度水平下使抽样估计的误差范围小于5,试求样本量。
2 .总体标准差的估算方法
(1)根据以往的经验数值
对于一些连续进行的调查来说,使用过去的经验数据进行估算是有可能的。
(2)通过试访问进行估计
通过试访问的方法,先获得少数一部分样本的误差数据,然后根据这些数据去计算最终所需要的样本量,然后再将所需要的样本量完成。
(3)成数估计条件下采用的最大值法
在成数估计的条件下,方差的最大值为0.25,因此可以使用最大的方差作为推断最大样本量的基础。
(4)序贯抽样方法
所谓序贯抽样,是指依次抽取样本,每抽取一次,进行一次误差计算,直至达到所需要的精度。
五.其他抽样方式的抽样误差计算
1 .分层抽样( Stratified Sampling )
从计算公式中可以看到,层与层之间的误差不影响最终的抽样误差,因此,分层抽样应当努力使层间差异大,层内差异小。
当各层的调查费用相等时,样本的最优分配为
这一分配公式称为Neyman分配。
2 .整群抽样( Cluster Sampling )
3 .多阶段抽样( Multi-stage Sampling )
多阶段抽样的误差计算取决于各阶段的抽样方式,以最简单的二阶段抽样为例,如果每一阶段的抽选都是简单随机抽样,一阶单位的规模相同,则有下列公式:
其中:为第一阶段的抽样比,为第二阶段的抽样比。
为总体一阶单位间的方差;
为第二阶段的单位间方差。
4 .设计效应的计算
当因子小于1时,说明抽样设计的效率高于SRS。
如果一个复杂抽样的因子可以估计,则对应相同精度的简单随机抽样样本量,复杂抽样设计的样本量为:
第六章 抽样推断
一.参数与统计量
参数是指描述总体分布状况的数;
统计量是指由样本构造出来的数。
例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数;在班级中抽出10名学生,了解其年龄,并根据10名学生的年龄计算平均数为21.5岁,则21.5即为由样本构造出来的统计量。
抽样推断,就是由统计量推断总体的过程。
二.有放回条件下的简单随机抽样( Simple Random Sampling )误差计算
1 .样本平均数的分布
从一个总体中抽出一部分单位,构成一个样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本平均数,这些样本平均数具有自己的分布形式。根据大数定理,当样本量超过30时,样本平均数的分布为正态分布。
2 .基本公式
在有放回条件下,简单随机抽样的误差计算公式如下
3 .统计推断
利用正态分布的特征,可以计算出落在各个区间内的概率。区间的大小一般可以用一个概率度来表示。
查标准正态分布表,可以获得下列概率度与概率值的对应关系
概率度(t) 概率值( p ) 概率度( t ) 概率值( p )
1.28 80% 1 68.27%
1.64 90% 2 95.45%
1.96 95% 3 99.73%
2.58 99%
考察这样一个例子:
某总体标准差为100,平均值为40,抽出一个36个单位构成的样本,试在95%的置信度水平下,估计样本平均数的范围。
从此例子可以逆推:
某总体标准差为100,其一个36个单位组成的样本的平均数为40,试在95%的置信度水平下,估计总体平均数的范围。
4 .利用样本标准差推断总体标准差
在实践中,可以使用样本的标准差作为总体标准差的无偏估计量。
考察这样一个例子:
在一批材料中抽查20根测得重量数值如下(单位:公斤)
110 111 111 112 113 114 114 114 115
116 116 117 118 119 119 119 119 120
121 124
试估计这批材料的平均重量,在95%的置信度水平下列出置信区间。
5 .无放回条件下的简单随机抽样误差
可以简化作
三.影响抽样误差的因素
根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:
1.目标总体的变异程度
目标总体的变异程度()是影响抽样误差的最主要的因素之一,总体的变异程度越大,在确定样本下的抽样误差越大。
2.样本容量
对于一个确定的总体,减小抽样误差的主要手段就是增加样本量。从公式中可以知道,抽样误差与样本量的平方根成正比,欲使抽样误差缩小一半,必须使样本量增加到原来的四倍。
3.抽样方式
有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。
需要注意,在抽样比()非常小的情况下,无放回抽样与有放回抽样的误差基本是相同的,可以利用有放回抽样的误差计算公式来代替无放回的情况。在这一公式中,没有总体单位数N的存在,也就是说,当抽样比非常小的情况下,总体单位数的大小对于抽样误差没有影响。
这就说明了为什么在大城市进行调查和在小城市进行调查,要获得同样的精度时,所需的样本量相差无几。
4.抽样的组织形式。
抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。
四.样本量的计算
1 .简单随机抽样条件下样本量的计算公式
样本量的计算方式是基于无放回简单随机抽样的误差计算公式
为使抽样估计的误差范围小于某个指定的,需要使样本量n的值满足下列式子:
由此计算出来的n是简单随机抽样条件下的样本量。
考虑这样一个例子:
已知某总体的标准差为100,欲在95%的置信度水平下使抽样估计的误差范围小于5,试求样本量。
2 .总体标准差的估算方法
(1)根据以往的经验数值
对于一些连续进行的调查来说,使用过去的经验数据进行估算是有可能的。
(2)通过试访问进行估计
通过试访问的方法,先获得少数一部分样本的误差数据,然后根据这些数据去计算最终所需要的样本量,然后再将所需要的样本量完成。
(3)成数估计条件下采用的最大值法
在成数估计的条件下,方差的最大值为0.25,因此可以使用最大的方差作为推断最大样本量的基础。
(4)序贯抽样方法
所谓序贯抽样,是指依次抽取样本,每抽取一次,进行一次误差计算,直至达到所需要的精度。
五.其他抽样方式的抽样误差计算
1 .分层抽样( Stratified Sampling )
从计算公式中可以看到,层与层之间的误差不影响最终的抽样误差,因此,分层抽样应当努力使层间差异大,层内差异小。
当各层的调查费用相等时,样本的最优分配为
这一分配公式称为Neyman分配。
2 .整群抽样( Cluster Sampling )
3 .多阶段抽样( Multi-stage Sampling )
多阶段抽样的误差计算取决于各阶段的抽样方式,以最简单的二阶段抽样为例,如果每一阶段的抽选都是简单随机抽样,一阶单位的规模相同,则有下列公式:
其中:为第一阶段的抽样比,为第二阶段的抽样比。
为总体一阶单位间的方差;
为第二阶段的单位间方差。
4 .设计效应的计算
当因子小于1时,说明抽样设计的效率高于SRS。
如果一个复杂抽样的因子可以估计,则对应相同精度的简单随机抽样样本量,复杂抽样设计的样本量为: