《抽样技术》第5章 不等概抽样

本文详细介绍了不等概率抽样在统计调查中的使用,包括其提高抽样效率的方法、分类及其优缺点。通过实例说明了在不同场景下,如商业销售额调查、医疗服务满意度调查等,不等概率抽样如何优于等概率抽样。文中提到了放回不等概率抽样(PPS抽样)和不放回不等概率抽样的概念,并阐述了多阶段抽样的应用,如城市居民消费情况调查。此外,还讨论了在群规模不等时的整群抽样策略。总结了不同抽样方法的适用情况和效果,强调了不等概率抽样在处理单元规模差异大、调查成本和效率考虑等方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、基本了解

(一)从等概率抽样说起

1、等概率抽样的特点

总体中每个单元地位都相等,在抽样时对每个单元更是采取不偏不倚的态度。每个总体单元都以相同概率入样

2、不等概抽样优于等概抽样的举例

等概率抽样方法容易设计和解释,但并非总是可行的,有时候,不等概率更有效率,尤其是抽样单元规模差异很大时。

比如,①对船舶运输量进行调查,作为抽样单元的船舶,有的是从事远洋运输的万吨巨轮,更多的是从事内河河网运输的百吨或几十吨小船。总体单元差异大,这时,不等概率抽样能提高精度;

②又比如,调查某城市所有住院病人对某项医疗服务的偏好程度,如果采取两阶段等概率抽样。第一阶段以医院为群,等概率抽取部分医院,第二阶段抽取病床,为了保证等概率抽样,在被抽中的医院中按照病床比例简单随机地抽取相应样本数目,使每个医院被抽取的样本单元能代表相同数量的总体单元(自加权样本)。在病人对该项医疗服务的满意程度与医院的病床数成正比的情况下,无偏估计量就会产生较大的方差。并且,不同规模的医院(20个床位和1000个床位)的医院样本调查难度和单元成本不同,加之抽样前医院的样本数未知,这些情况都给等概率抽样的设计和实施带来了困难

因此,总体单元差异大时,需要牺牲“简单”来提高抽样效率。

3、提高抽样效率的2个方法

一是在抽样初始阶段,就按照总体单元规模大小分层,分层之后,每层的层抽样比不同(此处的抽样比并不严格按照单元数比例分配),对较大单元所在的层赋予更高的层抽样比,特大层的抽样比甚至可以是100%;

另一种是直接将每个单元的规模所占比例作为入样概率,不分层或者分成不清晰的层。

对比等概率抽样之一的按比例分配各层样本量的分层抽样,做法是先分层(分层依据不一定是规模,而是诸如年级、收入等辅助变量),然后按照各层单元数占总体单元数的比例分配各层样本量(抽样比与单元数严格一致),相当于保持分层的结构,缩小调查样本。

例如,上面关于医疗服务偏好的调查中,可以采用不等概率抽样中的第二种方式,直接将医院的床位数量比例作为入样概率(此时各总体单元的入样概率是不等的,是否被抽中与床位数的多少有关,大医院被抽中的可能性大)抽取医院,然后从每个入样医院中抽取相同数量的样本床位(此时各样本单元的入样概率又是不等的,大医院的抽样比低,小医院的抽样比高,即如果某病人在小医院,则被抽中的可能性更大)两阶段的不等概率相互抵消,最后产生等概率的效果,即每个病人都有相同的入样概率。与等概率整群抽样方法相比,该不等概率抽样方法的方差较小。

(二)不等概抽样

优点:估计精度较高。不足:每个单元的规模大小在抽样中很受重视,抽样前必须获得相关辅助信息,这使得抽样框的编制有时会比较复杂。

(三)不等概抽样的适用情况

1、抽样单元在总体中的地位不一致。

例如,对某市商业销售额调查,以商场为抽样单元。虽然大型或特大型商场的数量并不多,但它们占总销售额的份额大,地位重要。对于这种情况,如果将大小商场同等对待,就显得不尽合理。并且,由于规模和管理水平的原因,对大商场展开的调查往往更加容易,可以更加细致,值得花费一定的精力去进行。

2、调查的总体单元与抽样单元不一致。

例如,某大型单位欲对本单位的职工家庭情况展开调查。一般以职工花名册作为抽样框进行抽样。如果某家庭中有不止一人在该单位工作,在简单随机抽样的方式下,这种家庭被抽中的概率更大。而调查者希望将每个家庭同等对待,这时,除了可以在抽样框中删除人员外,还可以采用不等概率抽样,即以每名职工其家庭成员在该单位工作的人数的反比作为抽样概率。

3、为了改善估计量

二、不等概抽样的分类

(一)放回不等概率抽样

特点:在抽样之前就给总体中每个单位赋予一个确定的抽样概率,在放回抽样的每一次抽取中,每个单位被抽中的概率都不变,直到抽够n个样本单位为止。由于每次抽取总体的分布都不变,所以每次抽取都是相互独立的。最重要最常用的是PPS抽样,即总体中每个单位每次被抽到的概率与单位的规模大小成比例。

不足:有放回+不等概率,使被赋予较大抽样概率的单位不仅入样机会大,而且被重复抽取的机会也大,由此造成信息的重复,降低抽样的效率。

1、样本单元放回的与规模大小成比例的不等概率抽样(PPS,probability proportional to size)

总体单元个数N总体单元规模大小的度量为M_{i}每个总体单元的入样概率Z_{i}=\frac{M_{i}}{M_{0}}=\frac{M_{i}}{\sum M_{i}}

2、PPS抽样的实施主要有两种方法:

①代码法

赋予每个单元与M_{i}相等的代码数,每次抽样都产生一个[1,M_{0}]之间的随机数mm落入的区间对应的单元被抽中,重复进行,直到抽满所需的单元数。

②拉希里法(Lahiri)

M^{*}=maxM_{i},每次产生一个[1,M^{*}]之间的随机数m和一个[1,N]之间的随机数i,如果m\leq M_{i},则该单元被抽中。否则重复抽取,直到抽满所需的单元数。

3、汉森-赫维茨(Hansen-Hurwitz)估计量

选取的样本数n,此时总体总值的估计量是汉森-赫维茨(Hansen-Hurwitz)估计量,并且是无偏的。

\widehat{Y_{HH}}=\frac{1}{n}\sum \frac{y_{i}}{Z_{i}}v(\widehat{Y_{HH}})=\frac{1}{n}\frac{1}{n-1}\sum (\frac{y_{i}}{Z_{i}}-\widehat{Y_{HH}})^{2}

如果采用的是PPS抽样,则Z_{i}=\frac{M_{i}}{M_{0}}

4、PPS抽样下利用HH估计量估计总体总值的例题

采用PPS抽样,已知抽取的样本数n(某些样本单位被抽中一次以上,估计的时候,也要把对应的值重复计算相应的次数)、各样本的辅助变量值(一般为规模大小)M_{i}现今各样本的调查值y_{i},计算出M_{0}=\sum M_{i},则可代入公式计算以下值:

总体总值的估计:\widehat{Y_{HH}}=\frac{M_{0}}{n}\sum \frac{y_{i}}{M_{i}}

方差及标准差估计:v(\widehat{Y_{HH}})=\frac{M_{0}^{2}}{n(n-1))}\sum (\frac{y_{i}}{M_{i}}-\frac{\widehat{Y_{HH}}}{M_{0}})^{2}s(\widehat{Y_{HH}})

在置信度为95%时,对应的t=1.96\widehat{Y_{HH}}相对误差为:

r=t\frac{s(\widehat{Y_{HH}})}{\widehat{Y_{HH}}}

因此在置信度仍为95%,相对误差r_{1}为20%时,所需的样本量为:n_{1}=\frac{r^{2}}{r_{1}^{2}}n

(二)不放回的不等概率抽样

特点:样本中不会出现重复单位,抽样效率比放回形式的要高。各次抽取相互不独立,使得抽样实施、目标量及其方差的估计都更加复杂最常用最重要的是\pi PS抽样,即样本量固定,总体中每个单位的入样概率与单位的规模大小严格成比例。此处不详细介绍。

样本单元不放回与规模大小成比例的不等概率抽样(\pi PS

此时样本不独立。总体单元被包含到样本的概率\pi _{i}=nZ_{i}n是抽取的单元数。

三、群规模不等的整群抽样

(一)方法综述

群规模不等时的整群抽样及其估计,包含很多种方法,比如:

1、等概抽样,简单估计

此时估计量是有偏的,但是操作简单易于掌握,适用于群之间规模差异不大的情况。

2、等概抽样,加权估计

以群规模为权数,是一个无偏估计,但是方差较大。

3、等概抽样,比率估计

以群规模为辅助变量,是有偏估计,但适用于n较大的情况。并且,选取关系更密切的辅助变量能减小方差。

4、与群规模成比例的PPS抽样(汉森-赫维茨估计量)

将群的规模作为抽取样本的辅助信息,可以得到总体目标量的无偏估计,估计量和方差都有比较简明的形式,并提高了估计的效果。

该情况下的例题计算:

采用PPS抽取群,已知抽取的样本数n、群规模M_{i}(辅助变量)、各样本总值y_{i}。以辅助变量作为依据,采用代码法抽样,得到样本后,估计过程如下:

样本均值y^{=}=\frac{1}{n}\sum \frac{y_{i}}{M_{i}}样本均值的方差v(y^{=})=\frac{1}{n(n-1)}\sum (y_{i}^{-}-y^{=})^{2},从而得到样本均值的置信区间。

总体均值\widehat{Y}=M_{0}y^{=}总体均值的方差v(\widehat{Y})=M_{0}v(y^{=}),从而得到总体均值的置信区间。

四、关于总体比例的整群抽样

(一)抽样方法

1、群规模相等时

采用简单随机抽样抽取群,这时是无偏估计,\widehat{P}=\frac{1}{n}\sum p_{i}

2、群规模不等时

例题:已知某群中具有某些特征的单位数a_{i}各群的比例p_{i}各群的规模M_{i}平均群规模\overline{M}=\frac{1}{n}\sum M_{i},得到总体总值的估计及方差

\widehat{P}=\frac{\sum a_{i}}{\sum M_{i}}

v(\widehat{P})=\frac{1-f}{n\overline{M}^{2}}\frac{1}{n}(\sum a_{i}^{2}+\widehat{P}^{2}\sum M_{i}^{2}-2\widehat{P}\sum a_{i}M_{i})

为了证明该方法比简单随机抽样效果更好,以下计算简单随机抽样下的估计量及方差

\widehat{P}=\frac{a}{n}v_{srs}(\widehat{P})=\frac{1-f}{n-1}pq

此时0< deff=\frac{v(\widehat{P})}{v_{srs}(\widehat{P})}< 1,同时群内相关系数\rho =\frac{deff-1}{\overline{M}-1}< 0

五、多阶段有放回不等概率抽样

是在各级的单元大小不同的情况下,具体公式略。着重分析两个案例:

案例:关于全国地级及以上的城市成年居民人均奶制品消费情况的调查。

第一步,确定调查方法。多阶段抽样。各阶段抽样单元分别是城市、街道、居委会、居民户。

第二步,确定样本量及各阶段样本量的分配

①全国样本量的计算,95%的置信度下\mu _{\alpha }=2、为使方差达到最大P=0.5极限绝对误差d=2,代入公式得到n_{0}=\frac{\mu _{\alpha }^{2}PQ}{d^{2}},估计回答率b,因此调整样本量为n_{1}=\frac{n_{0}}{b},由于多阶段抽样的效率比简单随机抽样的效率低,因此,取设计效应(一般在3左右),得到样本量n_{2}=n_{0}*deff

②各阶段样本量的配置:是按照计算出来的n_{2}后推而来的。
初级单元:20个城市,每个城市有80位样本居民。

二级单元:80个街道,每个样本市内抽4个街道。

三级单元:160个居委会,每个样本街道抽2个居委会。

四级单元:1600个居民户,每个样本居委会内抽10户居民户,该数字大于等于n_{2}

在每个样本居民户中,利用二维随即表抽取1个成年居民

第三步,抽样方法的选择

第一阶段,在全国城市中按与人口数成比例的放回的不等概率抽样,即PPS抽样,抽取20个城市。

二级单元和三级单元的选取都是按照与人口数成比例的不等概等距抽样

以第二阶段为例,在某个被抽中的样本城市中,给其所属的街道编号,收集各街道的人口数,赋予每个街道与其人口数相同的代码数,将该市总人口数除以样本量4得到抽样间距,然后对代码进行随机起点的等距抽样,被抽中代码所在的街道为样本街道。

第四阶段,分别在每个样本居委会中,根据该居委会拥有的居民户数除以样本量10得到抽样间距,随机选择起点地等距抽样。

第四步,推算结果

初级单元的比例为p_{i}总体比例P=\frac{1}{20}\sum p_{i}总体比例的方差估计v(p)=\frac{1}{n(n-1)}\sum (p_{i}-p)^{2}

举例:我国劳动力的调查(以全国为总体,各省市区独立实施抽样)

1、分层四阶整群抽样(县→乡→村→小区)

①对县级单元(县、县级市或市辖区)按照人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取县级单位;

②对抽中的县级单位,采用PPS抽取乡级单位(街道、镇或乡);

③对抽中的乡级单位 ,采用PPS抽取村级单位(居委会或村委会);

④对抽中的村级单位,系统抽样抽取调查小区(由30个最相邻的住址组成)。抽中的小区调查其全部住户及家庭成员。

2、分层三阶整群抽样(乡→村→小区)

①对乡级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取乡级单位;

②对抽中的乡级单位,采用PPS抽取村级单位;

③对抽中的村级单位,系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。

3、分层两阶整群抽样(村→小区)

①对村级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取村级单位;

②对抽中的村级单位,采用系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。

PPS(Probability Proportional to Size)不等抽样是一种抽样,其中每个样本的选择率与该样本的大小成比例。在这里,我们将介绍如何使用应用代码和Lahiri两种方实施PPS不等抽样。 应用代码: 1. 计算总体大小(N)和样本大小(n)。 2. 对每个单位赋予一个编号,从1到N。 3. 按编号顺序排序所有单位。 4. 计算总体大小的比例因子(K):K = N / Σ单位大小。 5. 计算每个单位的选择率(pi):pi = K * 单位大小。 6. 使用随机数生成器从1到N之间选取n个整数,这些整数对应于样本中的n个单位。 7. 根据这些整数选择样本。 Lahiri: 1. 计算总体大小(N)和样本大小(n)。 2. 对每个单位赋予一个编号,从1到N。 3. 按编号顺序排序所有单位。 4. 计算总体大小的比例因子(K):K = N / Σ单位大小。 5. 计算每个单位的选择率(pi):pi = K * 单位大小。 6. 计算一个累积率列表,其中第i个元素为Σpi(j),其中j ≤ i。 7. 从0到1之间生成n个随机数。 8. 对于每个随机数,使用二分查找在累积率列表中找到对应的位置,并选择该位置对应的单位。 下面是Python代码示例,用于实现PPS不等抽样的应用代码和Lahiri两种方: ```python import random def pps_sampling_application_code(population, n): N = len(population) units = sorted(population, key=lambda x: x["size"]) K = N / sum(unit["size"] for unit in units) probabilities = [unit["size"] * K for unit in units] samples = random.sample(range(N), n) return [units[i] for i in samples] def pps_sampling_lahiri(population, n): N = len(population) units = sorted(population, key=lambda x: x["size"]) K = N / sum(unit["size"] for unit in units) probabilities = [unit["size"] * K for unit in units] cumulative_probabilities = [sum(probabilities[:i+1]) for i in range(N)] samples = [] for i in range(n): r = random.random() left, right = 0, N - 1 while left < right: mid = (left + right) // 2 if cumulative_probabilities[mid] < r: left = mid + 1 else: right = mid samples.append(units[right]) return samples ``` 这两种方都需要将总体中的每个单位表示为一个带有“size”键的字典。函数pps_sampling_application_code和pps_sampling_lahiri都采用一个population列表和一个n参数,分别表示总体和样本大小。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值