《抽样技术》第4章等概率整群抽样和多阶段抽样

最新推荐文章于 2025-01-22 18:53:38 发布

春天就在冬天旁

最新推荐文章于 2025-01-22 18:53:38 发布

阅读量1.1w

点赞数 6

分类专栏：抽样技术文章标签：经验分享

本文链接：https://blog.csdn.net/m0_59015819/article/details/127833881

版权

抽样技术专栏收录该内容

5 篇文章

订阅专栏

在本章中，抽样单元不一定是基本单元。

一、基本了解

（一）整群抽样（cluster sampling）

1、整群抽样方法的定义

先将总体划分为若干群，然后以群为抽样单元，抽样时从总体中随机抽取一部分群，并对入选群的所有基本单元进行调查。

2、群的定义

由若干个有联系的基本单元所组成的集合称为群。因此，群内单元通常具有相似性。

3、抽取群的方式：

①各群的规模相等时，采用等概率抽样；

②各群的规模不等时，常采用不等概率抽样。

③两阶段抽样：抽取群（初级抽样单元）后，如果群规模比较大，对群内单元进行再抽样（二级抽样单元）。

4、整群抽样的优点：

①抽样框编制得以简化。相对来说，构造群的抽样框往往更容易、简便。例如对广州市小学生的视力状况进行抽样调查，要获得广州市所有小学生的名单十分困难，但若以学校作为群，得到广州市所有小学的名单则要容易得多，可操作性强。

②实施调查比较便利、节省费用。例如在对广州市住户的抽样调查中，如果采用简单随机抽样，会使样本分布比较分散，给调查带来不便，并使调查费用增加。如果采用整群抽样，则调查单位的分布相对集中，调查人员能节省大量来往于调查单元间的时间和费用。另外，如果群是以行政单元划分的，调查时得到行政单元的配合，将更有助于调查的实施，得到较高质量的原始数据。由于整群抽样省时省力，每个单元的平均调查费用较少，故可以通过适当增大样本量的方法弥补抽样精度的损失。

③从方法上看，整群抽样是由一阶段抽样向多阶段抽样过渡的桥梁。

④适用于实际情况。例如对某些工业产品的质量检验，事实上不能逐个抽取样本单位来进行，只能在某一时间内，成批地抽取产品来检验。

⑤对于某些特殊结构的总体，整群抽样的精度会较高。即各个群的结构与总体结构相近，每个群是总体的缩小版本。

5、整群抽样的不足：

抽样误差比较大。因为群内单元具有相似性。整群抽样的抽样误差常常大于简单随机抽样。

6、使用条件：

抽样中应使每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处，那么少量群的抽取足以提供良好的精度。通常我们面临的总体会有自然的初级单元，我们也往往会根据这些自然单元来抽样，例如各所中学它们互相之间关于学生的体质很相似，但在一个学校里每个学生之间有一定的差异。

（二）群的划分

1、分类

大体可分为两类。一类是根据行政或地域形成的自然区域；一类是调查人员人为确定的范围。

一般借助方差分析的原理。当总体划分为群时，总体方差可以分解为群间方差和群内方差两部分。总体方差恒定，群间方差和群内方差这两部分是此消彼长的关系。由于整群抽样对抽中群中的所有单元都进行调查，群内方差消除，影响整群抽样误差大小的主要因素是群间方差。为了提高整群抽样估计的精度，我们应该努力降低群间方差，即提高群内方差，划分群的时候使群内差异尽量大，以避免群内单元重复提供相似信息，这也对应了上面的使用条件。这个原则恰好与分层抽样划分层的原则相反。

2、群的规模

指的是组成群的单元的数量。与估计的精度和费用都有关。正常情况下，群的规模不宜过大。

（三）抽样方案的举例：

想要估计某高校大学生拥有某品牌的手机的数量，试设计出几种等概率抽样的方案。

方案有：①简单随机抽样。抽样框是包含该大学所有学生的学生名录。因为学生名录较难获得，故不可行。

②整群抽样。抽样框是该大学的学生宿舍名录。抽样方法是根据学生宿舍名录随机抽取一部分宿舍，并调查被抽中宿舍中的每一个学生。

③两阶段抽样。抽取群的时候，群的数目比整群抽样时的数目更多（大约是每个宿舍住的人数倍），再在每个被抽中宿舍内随机抽取1各学生。初级抽样单元是学生宿舍，二级抽样单元是学生。

④按比例的分层随机抽样。将该高校的学生按照年级分层，抽样框是每年级的学生名录。每年级的学生总数是权重，每层按照简单随机抽样的方式抽取，每层所要抽取的样本量不一样。

二、等概率整群抽样

（一）群规模相等时的估计

1、特点：

①整体中各群的规模相等；

②采用简单随机抽样来抽取群，此时对总体均值或总值的估计都比较简单。

2、例题：

已知群的个数 $N$ 、被抽的群的个数 $n$ 、每个群里包含的单元数 $M$ 、每个群的均值 $y_{i}^{-}$ ，估计某总体的总体均值，并给出95%的置信区间。

解：需要计算抽样比 $f=\frac{n}{N}$ 、总体均值的无偏估计 $y^{=}=\frac{1}{n}\sum y_{i}^{-}$ 、群间变异性 $s_{b}^{2}=\frac{M}{n-1}\sum (y_{i}^{-}-y^{=})^{2}$ 以及总体方差的无偏估计 $v(y^{=})=\frac{1-f}{nM}s_{b}^{2}$ ，再开根号得到标准差 $s(y^{=})$ ，于是总体均值的置信度为95%的置信区间为 $[y^{=}-1.96s(y^{=}),y^{=}+1.96s(y^{=})]$ 。

4、整群抽样效率和简单随机抽样效率的比较

完成同一个任务：从总体中抽取一个样本容量为 $nM$ 的样本。

记简单随机抽样的方差为 $V_{srs}$ ，整群抽样的方差为 $V$ ，由此得到整群抽样（群规模相等）的设计效应为 $deff=\frac{V}{V_{srs}}\approx 1+(M-1))\rho$ ，其中 $\rho$ 是群内相关系数， $\widehat{\rho }=\frac{s_{b}^{2}-s_{w}^{2}}{s_{b}^{2}+(M-1)s_{w}^{2}}$ 以下开展分情况讨论：

① $\rho =1$ 。群内方差为0，群内各单元值都相同。此时 $deff=M$ ;

② $\rho \approx 0$ 。群内方差与总体方差相等，分群近乎随机，群内结构与总体结构相近。此时 $deff=1$ ，简单随机抽样与整群抽样效率相当；

③ $\rho \in [-\frac{1}{M-1},0)$ 。群内方差大于总体方差，群间方差为0，各群均值都相等。此时 $deff<1$ ，整群抽样更优。

因此，分群能够提高整群抽样估计的效率，但是对于自然形成的群，群内单元很难调整。

（二）整体中各群的规模不相等

这种情况更加常见。我们有两种估计方法：

1、等概率抽样，无偏估计

优点在于无偏性，比较适用于各群的群总值之间差异不大的情况。

2、等概率抽样，比率估计

一般会引入辅助变量（比如群规模或其他更优良的辅助变量），估计效果更好。不足在于是有偏估计，因此适用于样本群数（被抽的群的数目）较大的情况。

3、例题

在整体群规模不等的情况下，采用等概率抽样随机抽取群进行调查，请利用无偏估计量和比率估计量两种方法分别估计总体的总值，并计算两种估计量的标准差。

已知群的总数 $N$ 、所有单元的总数 $M_{0}$ 、被抽群的个数 $n$ 、每个群包含的单元数 $M_{i}$ 、每个群的总值 $y_{i}$ 、每个群的均值 $y_{i}^{-}=\frac{y_{i}}{M_{i}}$ 。

①无偏估计情况下，应计算

总体总值 $\widehat{Y}=\frac{1}{f}\sum y_{i}$ 、样本均值 $\overline{y}=\frac{1}{n}\sum y_{i}$ 、总体总值的方差 $v(\widehat{Y})=\frac{N^{2}(1-f))}{n}\frac{\sum (y_{i}-y^{-})^{2}}{n-1}$ 以及标准差。

②以群规模为辅助变量的比率估计情况下，应计算

总体总值 $\widehat{Y}=M_{0}\frac{\sum y_{i}}{\sum M_{i}}$ 、总体均值 $y^{=}=\frac{1}{n}\sum y_{i}^{-}$ 、总体总值的方差 $v(\widehat{Y})=\frac{N^{2}(1-f))}{n}\frac{\sum (y_{i}-M_{i}y^{=})^{2}}{n-1}$ 以及标准差。

（三）等概率两阶段抽样

1、多阶段抽样

因为群内单元相似性较大，有时我们可以从被抽中的群中再次抽样，选取子样本。

优点：

①保留了整群抽样样本比较集中、便于调查、节省费用等优点；

②避免了对小单元过多调查造成的浪费，抽样效率更高，相比整群抽样，能够提高估计精度。；

③抽样框的编制也更加简单，每阶段只需编制该阶段的抽样框，不必一开始就去编制包含所有小单元的抽样框；

④抽样方式更加灵活和多样化；

⑤在我国的统计制度下，可以为各级机构提供相应的信息，满足多级政府管理的需要。

举例：调查居民对某品牌产品的喜好，采用三阶段整群抽样：街道→居委会→居民户→对样本居民户中的所有居民都展开调查。

再举一例：我国1984年颁发的农产量抽样调查方案实行的是五阶段抽样方式，即为：省抽县，县抽乡，乡抽村，村抽地块，地块中抽实测样本，即定义全国的省为初级单位，县为二阶单位，乡镇为三级单位，自然村为四级单位，地块为五级单位。

2、二阶抽样与分层抽样和整群抽样的联系与区别？

①如果第一阶段抽样采用全面调查，二阶抽样就成了分层抽样；

②如果第二阶段抽样采用全面调查，二阶抽样就成了整群抽样。

3、初级单元规模相等的两阶段抽样

两阶段都是简单随机抽样，也保证独立性。

①估计量的公式：

总体均值的无偏估计为 $y^{=}=\frac{1}{n}\sum y_{i}^{-}$ ，总体均值的方差估计式： $v(y^{=})=\frac{1-f_{1}}{n}s_{1}^{2}+\frac{f_{1}(1-f_{2})}{nm}s_{2}^{2}$

②对方差估计式的分析：

第一项是主要的，第二项要小得多，这是因为第二项的分母是第一项的m倍，而且它还要乘以小于1的 $f_{1}$ 。这意味着在实施多阶抽样时要想提高估计精度，就要在第一阶段采取高效率的抽样方式，使第一项的误差降低，有利于整体误差的降低。

③举例：

已知群的总数 $N$ 、各群内包含的单元数 $M$ 、抽取的一级单元数 $n$ 、抽取的二级单元数 $m$ 、一级抽样比 $f_{1}=\frac{n}{N}$ 、二级抽样比 $f_{2}=\frac{m}{M}$ 。需要计算各样本初级单元的均值 $y_{i}^{-}$ 和方差 $s_{2i}^{2}$ 并放在表格里。

利用公式： $y^{=}=\frac{1}{n}\sum y_{i}^{-}$ 、 $s_{1}^{2}=\frac{1}{n-1}\sum (y_{i}^{-}-y^{=})^{2}$ 、 $s_{2}^{2}=\frac{1}{n}\sum s_{2i}^{2}$ 并这些都代入上面的总体均值的方差估计式中。