[统计学教程] 第六章 抽样推断

导读:
  第六章 抽样推断
  
   一.参数与统计量
  参数是指描述总体分布状况的数;
  统计量是指由样本构造出来的数。
  例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数;在班级中抽出10名学生,了解其年龄,并根据10名学生的年龄计算平均数为21.5岁,则21.5即为由样本构造出来的统计量。
  抽样推断,就是由统计量推断总体的过程。
  
   二.有放回条件下的简单随机抽样( Simple Random Sampling )误差计算
   1 .样本平均数的分布
  从一个总体中抽出一部分单位,构成一个样本,可计算出一个样本平均数。
  无数次抽选的结果,将会产生无数个样本平均数,这些样本平均数具有自己的分布形式。根据大数定理,当样本量超过30时,样本平均数的分布为正态分布。
   2 .基本公式
  在有放回条件下,简单随机抽样的误差计算公式如下
  
  
   3 .统计推断
  利用正态分布的特征,可以计算出落在各个区间内的概率。区间的大小一般可以用一个概率度来表示。
  查标准正态分布表,可以获得下列概率度与概率值的对应关系
  概率度(t) 概率值( p ) 概率度( t ) 概率值( p )
  1.28 80% 1 68.27%
  1.64 90% 2 95.45%
  1.96 95% 3 99.73%
  2.58 99%
  考察这样一个例子:
  某总体标准差为100,平均值为40,抽出一个36个单位构成的样本,试在95%的置信度水平下,估计样本平均数的范围。
  从此例子可以逆推:
  某总体标准差为100,其一个36个单位组成的样本的平均数为40,试在95%的置信度水平下,估计总体平均数的范围。
   4 .利用样本标准差推断总体标准差
  在实践中,可以使用样本的标准差作为总体标准差的无偏估计量。
  考察这样一个例子:
  在一批材料中抽查20根测得重量数值如下(单位:公斤)
  110 111 111 112 113 114 114 114 115
  116 116 117 118 119 119 119 119 120
  121 124
  试估计这批材料的平均重量,在95%的置信度水平下列出置信区间。
   5 .无放回条件下的简单随机抽样误差
  可以简化作
  
   三.影响抽样误差的因素
  根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:
  1.目标总体的变异程度
  目标总体的变异程度()是影响抽样误差的最主要的因素之一,总体的变异程度越大,在确定样本下的抽样误差越大。
  2.样本容量
  对于一个确定的总体,减小抽样误差的主要手段就是增加样本量。从公式中可以知道,抽样误差与样本量的平方根成正比,欲使抽样误差缩小一半,必须使样本量增加到原来的四倍。
  3.抽样方式
  有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。
  需要注意,在抽样比()非常小的情况下,无放回抽样与有放回抽样的误差基本是相同的,可以利用有放回抽样的误差计算公式来代替无放回的情况。在这一公式中,没有总体单位数N的存在,也就是说,当抽样比非常小的情况下,总体单位数的大小对于抽样误差没有影响。
  这就说明了为什么在大城市进行调查和在小城市进行调查,要获得同样的精度时,所需的样本量相差无几。
  4.抽样的组织形式。
  抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。
  
   四.样本量的计算
   1 .简单随机抽样条件下样本量的计算公式
  样本量的计算方式是基于无放回简单随机抽样的误差计算公式
  为使抽样估计的误差范围小于某个指定的,需要使样本量n的值满足下列式子:
  由此计算出来的n是简单随机抽样条件下的样本量。
  考虑这样一个例子:
  已知某总体的标准差为100,欲在95%的置信度水平下使抽样估计的误差范围小于5,试求样本量。
   2 .总体标准差的估算方法
  (1)根据以往的经验数值
  对于一些连续进行的调查来说,使用过去的经验数据进行估算是有可能的。
  (2)通过试访问进行估计
  通过试访问的方法,先获得少数一部分样本的误差数据,然后根据这些数据去计算最终所需要的样本量,然后再将所需要的样本量完成。
  (3)成数估计条件下采用的最大值法
  在成数估计的条件下,方差的最大值为0.25,因此可以使用最大的方差作为推断最大样本量的基础。
  (4)序贯抽样方法
  所谓序贯抽样,是指依次抽取样本,每抽取一次,进行一次误差计算,直至达到所需要的精度。
  
   五.其他抽样方式的抽样误差计算
   1 .分层抽样( Stratified Sampling
  从计算公式中可以看到,层与层之间的误差不影响最终的抽样误差,因此,分层抽样应当努力使层间差异大,层内差异小。
  当各层的调查费用相等时,样本的最优分配为
  这一分配公式称为Neyman分配。
   2 .整群抽样( Cluster Sampling
   3 .多阶段抽样( Multi-stage Sampling
  多阶段抽样的误差计算取决于各阶段的抽样方式,以最简单的二阶段抽样为例,如果每一阶段的抽选都是简单随机抽样,一阶单位的规模相同,则有下列公式:
  其中:为第一阶段的抽样比,为第二阶段的抽样比。
  为总体一阶单位间的方差;
  为第二阶段的单位间方差。
   4 .设计效应的计算
  当因子小于1时,说明抽样设计的效率高于SRS。
  如果一个复杂抽样的因子可以估计,则对应相同精度的简单随机抽样样本量,复杂抽样设计的样本量为:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值