《抽样技术》第4章 等概率整群抽样和多阶段抽样

在本章中,抽样单元不一定是基本单元。

一、基本了解

(一)整群抽样(cluster sampling)

1、整群抽样方法的定义

先将总体划分为若干群,然后以群为抽样单元,抽样时从总体中随机抽取一部分群,并对入选群的所有基本单元进行调查。

2、群的定义

由若干个有联系的基本单元所组成的集合称为群。因此,群内单元通常具有相似性

3、抽取群的方式:

①各群的规模相等时,采用等概率抽样;

②各群的规模不等时,常采用不等概率抽样。

两阶段抽样:抽取群(初级抽样单元)后,如果群规模比较大,对群内单元进行再抽样(二级抽样单元)。

4、整群抽样的优点:

抽样框编制得以简化。相对来说,构造群的抽样框往往更容易、简便。例如对广州市小学生的视力状况进行抽样调查,要获得广州市所有小学生的名单十分困难,但若以学校作为群,得到广州市所有小学的名单则要容易得多,可操作性强。

实施调查比较便利、节省费用。例如在对广州市住户的抽样调查中,如果采用简单随机抽样,会使样本分布比较分散,给调查带来不便,并使调查费用增加。如果采用整群抽样,则调查单位的分布相对集中,调查人员能节省大量来往于调查单元间的时间和费用。另外,如果群是以行政单元划分的,调查时得到行政单元的配合,将更有助于调查的实施,得到较高质量的原始数据。由于整群抽样省时省力,每个单元的平均调查费用较少,故可以通过适当增大样本量的方法弥补抽样精度的损失。

③从方法上看,整群抽样是由一阶段抽样向多阶段抽样过渡的桥梁

④适用于实际情况例如对某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验

⑤对于某些特殊结构的总体,整群抽样的精度会较高。即各个群的结构与总体结构相近,每个群是总体的缩小版本。

5、整群抽样的不足:

抽样误差比较大。因为群内单元具有相似性。整群抽样的抽样误差常常大于简单随机抽样

6、使用条件:

抽样中应使每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。通常我们面临的总体会有自然的初级单元,我们也往往会根据这些自然单元来抽样,例如各所中学它们互相之间关于学生的体质很相似,但在一个学校里每个学生之间有一定的差异

(二)群的划分

1、分类

大体可分为两类。一类是根据行政或地域形成的自然区域;一类是调查人员人为确定的范围。

一般借助方差分析的原理。当总体划分为群时,总体方差可以分解为群间方差和群内方差两部分。总体方差恒定,群间方差和群内方差这两部分是此消彼长的关系。由于整群抽样对抽中群中的所有单元都进行调查,群内方差消除,影响整群抽样误差大小的主要因素是群间方差为了提高整群抽样估计的精度,我们应该努力降低群间方差,即提高群内方差,划分群的时候使群内差异尽量大,以避免群内单元重复提供相似信息,这也对应了上面的使用条件。这个原则恰好与分层抽样划分层的原则相反

2、群的规模

指的是组成群的单元的数量。与估计的精度费用都有关。正常情况下,群的规模不宜过大。

(三)抽样方案的举例:

想要估计某高校大学生拥有某品牌的手机的数量,试设计出几种等概率抽样的方案。

方案有:①简单随机抽样。抽样框是包含该大学所有学生的学生名录。因为学生名录较难获得,故不可行。

整群抽样。抽样框是该大学的学生宿舍名录。抽样方法是根据学生宿舍名录随机抽取一部分宿舍,并调查被抽中宿舍中的每一个学生。

两阶段抽样。抽取群的时候,群的数目比整群抽样时的数目更多(大约是每个宿舍住的人数倍),再在每个被抽中宿舍内随机抽取1各学生。初级抽样单元是学生宿舍,二级抽样单元是学生。

按比例的分层随机抽样。将该高校的学生按照年级分层,抽样框是每年级的学生名录。每年级的学生总数是权重,每层按照简单随机抽样的方式抽取,每层所要抽取的样本量不一样。

二、等概率整群抽样

(一)群规模相等时的估计

1、特点

①整体中各群的规模相等;

②采用简单随机抽样来抽取群,此时对总体均值或总值的估计都比较简单。

2、例题

已知群的个数N被抽的群的个数n每个群里包含的单元数M每个群的均值y_{i}^{-},估计某总体的总体均值,并给出95%的置信区间。

解:需要计算抽样比f=\frac{n}{N}总体均值的无偏估计y^{=}=\frac{1}{n}\sum y_{i}^{-}群间变异性s_{b}^{2}=\frac{M}{n-1}\sum (y_{i}^{-}-y^{=})^{2}以及总体方差的无偏估计v(y^{=})=\frac{1-f}{nM}s_{b}^{2},再开根号得到标准差s(y^{=}),于是总体均值的置信度为95%的置信区间[y^{=}-1.96s(y^{=}),y^{=}+1.96s(y^{=})]

4、整群抽样效率和简单随机抽样效率的比较

完成同一个任务:从总体中抽取一个样本容量为nM的样本。

记简单随机抽样的方差为V_{srs},整群抽样的方差为V,由此得到整群抽样(群规模相等)的设计效应deff=\frac{V}{V_{srs}}\approx 1+(M-1))\rho,其中\rho群内相关系数\widehat{\rho }=\frac{s_{b}^{2}-s_{w}^{2}}{s_{b}^{2}+(M-1)s_{w}^{2}}以下开展分情况讨论:

\rho =1。群内方差为0,群内各单元值都相同。此时deff=M;

\rho \approx 0。群内方差与总体方差相等,分群近乎随机,群内结构与总体结构相近。此时deff=1,简单随机抽样与整群抽样效率相当

\rho \in [-\frac{1}{M-1},0)。群内方差大于总体方差,群间方差为0,各群均值都相等。此时deff<1整群抽样更优

因此,分群能够提高整群抽样估计的效率,但是对于自然形成的群,群内单元很难调整。

(二)整体中各群的规模不相等

这种情况更加常见。我们有两种估计方法:

1、等概率抽样,无偏估计

优点在于无偏性,比较适用于各群的群总值之间差异不大的情况。

2、等概率抽样,比率估计

一般会引入辅助变量(比如群规模或其他更优良的辅助变量),估计效果更好。不足在于是有偏估计,因此适用于样本群数(被抽的群的数目)较大的情况。

3、例题

在整体群规模不等的情况下,采用等概率抽样随机抽取群进行调查,请利用无偏估计量和比率估计量两种方法分别估计总体的总值,并计算两种估计量的标准差。

已知群的总数N所有单元的总数M_{0}被抽群的个数n每个群包含的单元数M_{i}每个群的总值y_{i}每个群的均值y_{i}^{-}=\frac{y_{i}}{M_{i}}

无偏估计情况下,应计算

总体总值\widehat{Y}=\frac{1}{f}\sum y_{i}、样本均值\overline{y}=\frac{1}{n}\sum y_{i}、总体总值的方差v(\widehat{Y})=\frac{N^{2}(1-f))}{n}\frac{\sum (y_{i}-y^{-})^{2}}{n-1}以及标准差。

以群规模为辅助变量的比率估计情况下,应计算

总体总值\widehat{Y}=M_{0}\frac{\sum y_{i}}{\sum M_{i}}、总体均值y^{=}=\frac{1}{n}\sum y_{i}^{-}、总体总值的方差v(\widehat{Y})=\frac{N^{2}(1-f))}{n}\frac{\sum (y_{i}-M_{i}y^{=})^{2}}{n-1}以及标准差。

(三)等概率两阶段抽样

1、多阶段抽样

因为群内单元相似性较大,有时我们可以从被抽中的群中再次抽样,选取子样本。

优点

①保留了整群抽样样本比较集中、便于调查、节省费用等优点;

②避免了对小单元过多调查造成的浪费,抽样效率更高,相比整群抽样,能够提高估计精度。

抽样框的编制也更加简单,每阶段只需编制该阶段的抽样框,不必一开始就去编制包含所有小单元的抽样框;

抽样方式更加灵活和多样化;

⑤在我国的统计制度下,可以为各级机构提供相应的信息,满足多级政府管理的需要。

举例:调查居民对某品牌产品的喜好,采用三阶段整群抽样:街道→居委会→居民户→对样本居民户中的所有居民都展开调查。

再举一例:我国1984年颁发的农产量抽样调查方案实行的是五阶段抽样方式,即为:省抽县,县抽乡,乡抽村,村抽地块,地块中抽实测样本,即定义全国的省为初级单位,县为二阶单位,乡镇为三级单位,自然村为四级单位,地块为五级单位。

2、二阶抽样与分层抽样和整群抽样的联系与区别?

①如果第一阶段抽样采用全面调查,二阶抽样就成了分层抽样;

②如果第二阶段抽样采用全面调查,二阶抽样就成了整群抽样。

3、初级单元规模相等的两阶段抽样

两阶段都是简单随机抽样,也保证独立性。

①估计量的公式

总体均值的无偏估计为y^{=}=\frac{1}{n}\sum y_{i}^{-}总体均值的方差估计式:v(y^{=})=\frac{1-f_{1}}{n}s_{1}^{2}+\frac{f_{1}(1-f_{2})}{nm}s_{2}^{2}

②对方差估计式的分析

第一项是主要的,第二项要小得多,这是因为第二项的分母是第一项的m倍,而且它还要乘以小于1的f_{1}。这意味着在实施多阶抽样时要想提高估计精度,就要在第一阶段采取高效率的抽样方式,使第一项的误差降低,有利于整体误差的降低。

③举例

已知群的总数N各群内包含的单元数M抽取的一级单元数n抽取的二级单元数m一级抽样比f_{1}=\frac{n}{N}二级抽样比f_{2}=\frac{m}{M}。需要计算各样本初级单元的均值y_{i}^{-}方差s_{2i}^{2}并放在表格里。

利用公式:y^{=}=\frac{1}{n}\sum y_{i}^{-}s_{1}^{2}=\frac{1}{n-1}\sum (y_{i}^{-}-y^{=})^{2}s_{2}^{2}=\frac{1}{n}\sum s_{2i}^{2}并这些都代入上面的总体均值的方差估计式中。

如果还要求总体总值的估计、标准差以及置信区间,则还要用到如下公式:

\widehat{Y}=NMy^{=}

v(\widehat{Y})=N^{2}M^{2}v(y^{=})、以及标准差

  • 3
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值