一、基本了解
(一)从等概率抽样说起
1、等概率抽样的特点
总体中每个单元地位都相等,在抽样时对每个单元更是采取不偏不倚的态度。每个总体单元都以相同概率入样。
2、不等概抽样优于等概抽样的举例
等概率抽样方法容易设计和解释,但并非总是可行的,有时候,不等概率更有效率,尤其是抽样单元规模差异很大时。
比如,①对船舶运输量进行调查,作为抽样单元的船舶,有的是从事远洋运输的万吨巨轮,更多的是从事内河河网运输的百吨或几十吨小船。总体单元差异大,这时,不等概率抽样能提高精度;
②又比如,调查某城市所有住院病人对某项医疗服务的偏好程度,如果采取两阶段等概率抽样。第一阶段以医院为群,等概率抽取部分医院,第二阶段抽取病床,为了保证等概率抽样,在被抽中的医院中按照病床比例简单随机地抽取相应样本数目,使每个医院被抽取的样本单元能代表相同数量的总体单元(自加权样本)。在病人对该项医疗服务的满意程度与医院的病床数成正比的情况下,无偏估计量就会产生较大的方差。并且,不同规模的医院(20个床位和1000个床位)的医院样本调查难度和单元成本不同,加之抽样前医院的样本数未知,这些情况都给等概率抽样的设计和实施带来了困难。
因此,总体单元差异大时,需要牺牲“简单”来提高抽样效率。
3、提高抽样效率的2个方法
一是在抽样初始阶段,就按照总体单元规模大小分层,分层之后,每层的层抽样比不同(此处的抽样比并不严格按照单元数比例分配),对较大单元所在的层赋予更高的层抽样比,特大层的抽样比甚至可以是100%;
另一种是直接将每个单元的规模所占比例作为入样概率,不分层或者分成不清晰的层。
对比等概率抽样之一的按比例分配各层样本量的分层抽样,做法是先分层(分层依据不一定是规模,而是诸如年级、收入等辅助变量),然后按照各层单元数占总体单元数的比例分配各层样本量(抽样比与单元数严格一致),相当于保持分层的结构,缩小调查样本。
例如,上面关于医疗服务偏好的调查中,可以采用不等概率抽样中的第二种方式,直接将医院的床位数量比例作为入样概率(此时各总体单元的入样概率是不等的,是否被抽中与床位数的多少有关,大医院被抽中的可能性大)抽取医院,然后从每个入样医院中抽取相同数量的样本床位(此时各样本单元的入样概率又是不等的,大医院的抽样比低,小医院的抽样比高,即如果某病人在小医院,则被抽中的可能性更大)。两阶段的不等概率相互抵消,最后产生等概率的效果,即每个病人都有相同的入样概率。与等概率整群抽样方法相比,该不等概率抽样方法的方差较小。
(二)不等概抽样
优点:估计精度较高。不足:每个单元的规模大小在抽样中很受重视,抽样前必须获得相关辅助信息,这使得抽样框的编制有时会比较复杂。
(三)不等概抽样的适用情况
1、抽样单元在总体中的地位不一致。
例如,对某市商业销售额调查,以商场为抽样单元。虽然大型或特大型商场的数量并不多,但它们占总销售额的份额大,地位重要。对于这种情况,如果将大小商场同等对待,就显得不尽合理。并且,由于规模和管理水平的原因,对大商场展开的调查往往更加容易,可以更加细致,值得花费一定的精力去进行。
2、调查的总体单元与抽样单元不一致。
例如,某大型单位欲对本单位的职工家庭情况展开调查。一般以职工花名册作为抽样框进行抽样。如果某家庭中有不止一人在该单位工作,在简单随机抽样的方式下,这种家庭被抽中的概率更大。而调查者希望将每个家庭同等对待,这时,除了可以在抽样框中删除人员外,还可以采用不等概率抽样,即以每名职工其家庭成员在该单位工作的人数的反比作为抽样概率。
3、为了改善估计量
二、不等概抽样的分类
(一)放回不等概率抽样
特点:在抽样之前就给总体中每个单位赋予一个确定的抽样概率,在放回抽样的每一次抽取中,每个单位被抽中的概率都不变,直到抽够n个样本单位为止。由于每次抽取总体的分布都不变,所以每次抽取都是相互独立的。最重要最常用的是PPS抽样,即总体中每个单位每次被抽到的概率与单位的规模大小成比例。
不足:有放回+不等概率,使被赋予较大抽样概率的单位不仅入样机会大,而且被重复抽取的机会也大,由此造成信息的重复,降低抽样的效率。
1、样本单元放回的与规模大小成比例的不等概率抽样(PPS,probability proportional to size)
总体单元个数为、总体单元规模大小的度量为
,每个总体单元的入样概率
2、PPS抽样的实施主要有两种方法:
①代码法
赋予每个单元与相等的代码数,每次抽样都产生一个
之间的随机数
,
落入的区间对应的单元被抽中,重复进行,直到抽满所需的单元数。
②拉希里法(Lahiri)
令,每次产生一个
之间的随机数
和一个
之间的随机数
,如果
,则该单元被抽中。否则重复抽取,直到抽满所需的单元数。
3、汉森-赫维茨(Hansen-Hurwitz)估计量
选取的样本数为,此时总体总值的估计量是汉森-赫维茨(Hansen-Hurwitz)估计量,并且是无偏的。
,
如果采用的是PPS抽样,则
4、PPS抽样下利用HH估计量估计总体总值的例题
采用PPS抽样,已知抽取的样本数(某些样本单位被抽中一次以上,估计的时候,也要把对应的值重复计算相应的次数)、各样本的辅助变量值(一般为规模大小)
、现今各样本的调查值
,计算出
,则可代入公式计算以下值:
总体总值的估计:
方差及标准差估计:、
在置信度为95%时,对应的,
的相对误差为:
因此在置信度仍为95%,相对误差为20%时,所需的样本量为:
(二)不放回的不等概率抽样
特点:样本中不会出现重复单位,抽样效率比放回形式的要高。各次抽取相互不独立,使得抽样实施、目标量及其方差的估计都更加复杂。最常用最重要的是抽样,即样本量固定,总体中每个单位的入样概率与单位的规模大小严格成比例。此处不详细介绍。
样本单元不放回与规模大小成比例的不等概率抽样(
)
此时样本不独立。总体单元被包含到样本的概率,
是抽取的单元数。
三、群规模不等的整群抽样
(一)方法综述
群规模不等时的整群抽样及其估计,包含很多种方法,比如:
1、等概抽样,简单估计
此时估计量是有偏的,但是操作简单易于掌握,适用于群之间规模差异不大的情况。
2、等概抽样,加权估计
以群规模为权数,是一个无偏估计,但是方差较大。
3、等概抽样,比率估计
以群规模为辅助变量,是有偏估计,但适用于n较大的情况。并且,选取关系更密切的辅助变量能减小方差。
4、与群规模成比例的PPS抽样(汉森-赫维茨估计量)
将群的规模作为抽取样本的辅助信息,可以得到总体目标量的无偏估计,估计量和方差都有比较简明的形式,并提高了估计的效果。
该情况下的例题计算:
采用PPS抽取群,已知抽取的样本数、群规模
(辅助变量)、各样本总值
。以辅助变量作为依据,采用代码法抽样,得到样本后,估计过程如下:
样本均值、样本均值的方差
,从而得到样本均值的置信区间。
总体均值、总体均值的方差
,从而得到总体均值的置信区间。
四、关于总体比例的整群抽样
(一)抽样方法
1、群规模相等时
采用简单随机抽样抽取群,这时是无偏估计,
2、群规模不等时
例题:已知某群中具有某些特征的单位数、各群的比例
、各群的规模
、平均群规模
,得到总体总值的估计及方差:
为了证明该方法比简单随机抽样效果更好,以下计算简单随机抽样下的估计量及方差,
、
此时,同时群内相关系数
五、多阶段有放回不等概率抽样
是在各级的单元大小不同的情况下,具体公式略。着重分析两个案例:
案例:关于全国地级及以上的城市成年居民人均奶制品消费情况的调查。
第一步,确定调查方法。多阶段抽样。各阶段抽样单元分别是城市、街道、居委会、居民户。
第二步,确定样本量及各阶段样本量的分配
①全国样本量的计算,95%的置信度下、为使方差达到最大
、极限绝对误差
,代入公式得到
,估计回答率为
,因此调整样本量为
,由于多阶段抽样的效率比简单随机抽样的效率低,因此,取设计效应(一般在3左右),得到样本量
②各阶段样本量的配置:是按照计算出来的后推而来的。
初级单元:20个城市,每个城市有80位样本居民。
二级单元:80个街道,每个样本市内抽4个街道。
三级单元:160个居委会,每个样本街道抽2个居委会。
四级单元:1600个居民户,每个样本居委会内抽10户居民户,该数字大于等于。
在每个样本居民户中,利用二维随即表抽取1个成年居民。
第三步,抽样方法的选择
第一阶段,在全国城市中按与人口数成比例的放回的不等概率抽样,即PPS抽样,抽取20个城市。
二级单元和三级单元的选取都是按照与人口数成比例的不等概等距抽样。
以第二阶段为例,在某个被抽中的样本城市中,给其所属的街道编号,收集各街道的人口数,赋予每个街道与其人口数相同的代码数,将该市总人口数除以样本量4得到抽样间距,然后对代码进行随机起点的等距抽样,被抽中代码所在的街道为样本街道。
第四阶段,分别在每个样本居委会中,根据该居委会拥有的居民户数除以样本量10得到抽样间距,随机选择起点地等距抽样。
第四步,推算结果
初级单元的比例为,总体比例为
,总体比例的方差估计
举例:我国劳动力的调查(以全国为总体,各省市区独立实施抽样)
1、分层四阶整群抽样(县→乡→村→小区)
①对县级单元(县、县级市或市辖区)按照人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取县级单位;
②对抽中的县级单位,采用PPS抽取乡级单位(街道、镇或乡);
③对抽中的乡级单位 ,采用PPS抽取村级单位(居委会或村委会);
④对抽中的村级单位,系统抽样抽取调查小区(由30个最相邻的住址组成)。抽中的小区调查其全部住户及家庭成员。
2、分层三阶整群抽样(乡→村→小区)
①对乡级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取乡级单位;
②对抽中的乡级单位,采用PPS抽取村级单位;
③对抽中的村级单位,系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。
3、分层两阶整群抽样(村→小区)
①对村级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取村级单位;
②对抽中的村级单位,采用系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。