《抽样技术》第5章不等概抽样

春天就在冬天旁

已于 2022-11-17 08:59:37 修改

阅读量9k

点赞数 13

分类专栏：抽样技术文章标签：经验分享

于 2022-11-15 16:58:32 首次发布

本文链接：https://blog.csdn.net/m0_59015819/article/details/127858823

版权

抽样技术专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了不等概率抽样在统计调查中的使用，包括其提高抽样效率的方法、分类及其优缺点。通过实例说明了在不同场景下，如商业销售额调查、医疗服务满意度调查等，不等概率抽样如何优于等概率抽样。文中提到了放回不等概率抽样（PPS抽样）和不放回不等概率抽样的概念，并阐述了多阶段抽样的应用，如城市居民消费情况调查。此外，还讨论了在群规模不等时的整群抽样策略。总结了不同抽样方法的适用情况和效果，强调了不等概率抽样在处理单元规模差异大、调查成本和效率考虑等方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基本了解

（一）从等概率抽样说起

1、等概率抽样的特点

总体中每个单元地位都相等，在抽样时对每个单元更是采取不偏不倚的态度。每个总体单元都以相同概率入样。

2、不等概抽样优于等概抽样的举例

等概率抽样方法容易设计和解释，但并非总是可行的，有时候，不等概率更有效率，尤其是抽样单元规模差异很大时。

比如，①对船舶运输量进行调查，作为抽样单元的船舶，有的是从事远洋运输的万吨巨轮，更多的是从事内河河网运输的百吨或几十吨小船。总体单元差异大，这时，不等概率抽样能提高精度；

②又比如，调查某城市所有住院病人对某项医疗服务的偏好程度，如果采取两阶段等概率抽样。第一阶段以医院为群，等概率抽取部分医院，第二阶段抽取病床，为了保证等概率抽样，在被抽中的医院中按照病床比例简单随机地抽取相应样本数目，使每个医院被抽取的样本单元能代表相同数量的总体单元（自加权样本）。在病人对该项医疗服务的满意程度与医院的病床数成正比的情况下，无偏估计量就会产生较大的方差。并且，不同规模的医院（20个床位和1000个床位）的医院样本调查难度和单元成本不同，加之抽样前医院的样本数未知，这些情况都给等概率抽样的设计和实施带来了困难。

因此，总体单元差异大时，需要牺牲“简单”来提高抽样效率。

3、提高抽样效率的2个方法

一是在抽样初始阶段，就按照总体单元规模大小分层，分层之后，每层的层抽样比不同（此处的抽样比并不严格按照单元数比例分配），对较大单元所在的层赋予更高的层抽样比，特大层的抽样比甚至可以是100%；

另一种是直接将每个单元的规模所占比例作为入样概率，不分层或者分成不清晰的层。

对比等概率抽样之一的按比例分配各层样本量的分层抽样，做法是先分层（分层依据不一定是规模，而是诸如年级、收入等辅助变量），然后按照各层单元数占总体单元数的比例分配各层样本量（抽样比与单元数严格一致），相当于保持分层的结构，缩小调查样本。

例如，上面关于医疗服务偏好的调查中，可以采用不等概率抽样中的第二种方式，直接将医院的床位数量比例作为入样概率（此时各总体单元的入样概率是不等的，是否被抽中与床位数的多少有关，大医院被抽中的可能性大）抽取医院，然后从每个入样医院中抽取相同数量的样本床位（此时各样本单元的入样概率又是不等的，大医院的抽样比低，小医院的抽样比高，即如果某病人在小医院，则被抽中的可能性更大）。两阶段的不等概率相互抵消，最后产生等概率的效果，即每个病人都有相同的入样概率。与等概率整群抽样方法相比，该不等概率抽样方法的方差较小。

（二）不等概抽样

优点：估计精度较高。不足：每个单元的规模大小在抽样中很受重视，抽样前必须获得相关辅助信息，这使得抽样框的编制有时会比较复杂。

（三）不等概抽样的适用情况

1、抽样单元在总体中的地位不一致。

例如，对某市商业销售额调查，以商场为抽样单元。虽然大型或特大型商场的数量并不多，但它们占总销售额的份额大，地位重要。对于这种情况，如果将大小商场同等对待，就显得不尽合理。并且，由于规模和管理水平的原因，对大商场展开的调查往往更加容易，可以更加细致，值得花费一定的精力去进行。

2、调查的总体单元与抽样单元不一致。

例如，某大型单位欲对本单位的职工家庭情况展开调查。一般以职工花名册作为抽样框进行抽样。如果某家庭中有不止一人在该单位工作，在简单随机抽样的方式下，这种家庭被抽中的概率更大。而调查者希望将每个家庭同等对待，这时，除了可以在抽样框中删除人员外，还可以采用不等概率抽样，即以每名职工其家庭成员在该单位工作的人数的反比作为抽样概率。

3、为了改善估计量

二、不等概抽样的分类

（一）放回不等概率抽样

特点：在抽样之前就给总体中每个单位赋予一个确定的抽样概率，在放回抽样的每一次抽取中，每个单位被抽中的概率都不变，直到抽够n个样本单位为止。由于每次抽取总体的分布都不变，所以每次抽取都是相互独立的。最重要最常用的是PPS抽样，即总体中每个单位每次被抽到的概率与单位的规模大小成比例。

不足：有放回+不等概率，使被赋予较大抽样概率的单位不仅入样机会大，而且被重复抽取的机会也大，由此造成信息的重复，降低抽样的效率。

1、样本单元放回的与规模大小成比例的不等概率抽样（PPS，probability proportional to size）

总体单元个数为 $N$ 、总体单元规模大小的度量为 $M_{i}$ ，每个总体单元的入样概率 $Z_{i}=\frac{M_{i}}{M_{0}}=\frac{M_{i}}{\sum M_{i}}$

2、PPS抽样的实施主要有两种方法：

①代码法

赋予每个单元与 $M_{i}$ 相等的代码数，每次抽样都产生一个 $[1,M_{0}]$ 之间的随机数 $m$ ， $m$ 落入的区间对应的单元被抽中，重复进行，直到抽满所需的单元数。

②拉希里法（Lahiri）

令 $M^{*}=maxM_{i}$ ，每次产生一个 $[1,M^{*}]$ 之间的随机数 $m$ 和一个 $[1,N]$ 之间的随机数 $i$ ，如果 $m\leq M_{i}$ ，则该单元被抽中。否则重复抽取，直到抽满所需的单元数。

3、汉森-赫维茨（Hansen-Hurwitz）估计量

选取的样本数为 $n$ ，此时总体总值的估计量是汉森-赫维茨（Hansen-Hurwitz）估计量，并且是无偏的。

$\widehat{Y_{HH}}=\frac{1}{n}\sum \frac{y_{i}}{Z_{i}}$ ， $v(\widehat{Y_{HH}})=\frac{1}{n}\frac{1}{n-1}\sum (\frac{y_{i}}{Z_{i}}-\widehat{Y_{HH}})^{2}$

如果采用的是PPS抽样，则 $Z_{i}=\frac{M_{i}}{M_{0}}$

4、PPS抽样下利用HH估计量估计总体总值的例题

采用PPS抽样，已知抽取的样本数 $n$ （某些样本单位被抽中一次以上，估计的时候，也要把对应的值重复计算相应的次数）、各样本的辅助变量值（一般为规模大小） $M_{i}$ 、现今各样本的调查值 $y_{i}$ ，计算出 $M_{0}=\sum M_{i}$ ，则可代入公式计算以下值：

总体总值的估计： $\widehat{Y_{HH}}=\frac{M_{0}}{n}\sum \frac{y_{i}}{M_{i}}$

方差及标准差估计： $v(\widehat{Y_{HH}})=\frac{M_{0}^{2}}{n(n-1))}\sum (\frac{y_{i}}{M_{i}}-\frac{\widehat{Y_{HH}}}{M_{0}})^{2}$ 、 $s(\widehat{Y_{HH}})$

在置信度为95%时，对应的 $t=1.96$ ， $\widehat{Y_{HH}}$ 的相对误差为：

$r=t\frac{s(\widehat{Y_{HH}})}{\widehat{Y_{HH}}}$

因此在置信度仍为95%，相对误差 $r_{1}$ 为20%时，所需的样本量为： $n_{1}=\frac{r^{2}}{r_{1}^{2}}n$

（二）不放回的不等概率抽样

特点：样本中不会出现重复单位，抽样效率比放回形式的要高。各次抽取相互不独立，使得抽样实施、目标量及其方差的估计都更加复杂。最常用最重要的是 $\pi PS$ 抽样，即样本量固定，总体中每个单位的入样概率与单位的规模大小严格成比例。此处不详细介绍。

样本单元不放回与规模大小成比例的不等概率抽样（ $\pi PS$ ）

此时样本不独立。总体单元被包含到样本的概率 $\pi _{i}=nZ_{i}$ ， $n$ 是抽取的单元数。

三、群规模不等的整群抽样

（一）方法综述

群规模不等时的整群抽样及其估计，包含很多种方法，比如：

1、等概抽样，简单估计

此时估计量是有偏的，但是操作简单易于掌握，适用于群之间规模差异不大的情况。

2、等概抽样，加权估计

以群规模为权数，是一个无偏估计，但是方差较大。

3、等概抽样，比率估计

以群规模为辅助变量，是有偏估计，但适用于n较大的情况。并且，选取关系更密切的辅助变量能减小方差。

4、与群规模成比例的PPS抽样（汉森-赫维茨估计量）

将群的规模作为抽取样本的辅助信息，可以得到总体目标量的无偏估计，估计量和方差都有比较简明的形式，并提高了估计的效果。

该情况下的例题计算：

采用PPS抽取群，已知抽取的样本数 $n$ 、群规模 $M_{i}$ （辅助变量）、各样本总值 $y_{i}$ 。以辅助变量作为依据，采用代码法抽样，得到样本后，估计过程如下：

样本均值 $y^{=}=\frac{1}{n}\sum \frac{y_{i}}{M_{i}}$ 、样本均值的方差 $v(y^{=})=\frac{1}{n(n-1)}\sum (y_{i}^{-}-y^{=})^{2}$ ，从而得到样本均值的置信区间。

总体均值 $\widehat{Y}=M_{0}y^{=}$ 、总体均值的方差 $v(\widehat{Y})=M_{0}v(y^{=})$ ，从而得到总体均值的置信区间。

四、关于总体比例的整群抽样

（一）抽样方法

1、群规模相等时

采用简单随机抽样抽取群，这时是无偏估计， $\widehat{P}=\frac{1}{n}\sum p_{i}$

2、群规模不等时

例题：已知某群中具有某些特征的单位数 $a_{i}$ 、各群的比例 $p_{i}$ 、各群的规模 $M_{i}$ 、平均群规模 $\overline{M}=\frac{1}{n}\sum M_{i}$ ，得到总体总值的估计及方差：

$\widehat{P}=\frac{\sum a_{i}}{\sum M_{i}}$

$v(\widehat{P})=\frac{1-f}{n\overline{M}^{2}}\frac{1}{n}(\sum a_{i}^{2}+\widehat{P}^{2}\sum M_{i}^{2}-2\widehat{P}\sum a_{i}M_{i})$

为了证明该方法比简单随机抽样效果更好，以下计算简单随机抽样下的估计量及方差，

$\widehat{P}=\frac{a}{n}$ 、 $v_{srs}(\widehat{P})=\frac{1-f}{n-1}pq$

此时 $0< deff=\frac{v(\widehat{P})}{v_{srs}(\widehat{P})}< 1$ ，同时群内相关系数 $\rho =\frac{deff-1}{\overline{M}-1}< 0$

五、多阶段有放回不等概率抽样

是在各级的单元大小不同的情况下，具体公式略。着重分析两个案例：

案例：关于全国地级及以上的城市成年居民人均奶制品消费情况的调查。

第一步，确定调查方法。多阶段抽样。各阶段抽样单元分别是城市、街道、居委会、居民户。

第二步，确定样本量及各阶段样本量的分配

①全国样本量的计算，95%的置信度下 $\mu _{\alpha }=2$ 、为使方差达到最大 $P=0.5$ 、极限绝对误差 $d=2$ ，代入公式得到 $n_{0}=\frac{\mu _{\alpha }^{2}PQ}{d^{2}}$ ，估计回答率为 $b$ ，因此调整样本量为 $n_{1}=\frac{n_{0}}{b}$ ，由于多阶段抽样的效率比简单随机抽样的效率低，因此，取设计效应（一般在3左右），得到样本量 $n_{2}=n_{0}*deff$