分层抽样不按比例如何加权_抽样技术论文 -

文章探讨了分层随机抽样中层样本量分配的重要性,指出样本量分配对抽样精度和费用的影响。比例分配是最常用的分配方法,而最优分配则考虑了费用和方差,内曼最优分配是特殊情况。文章比较了各种分配方法的精度,提供了选取分配方法的原则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分层抽样中各层样本量的分配问题研究

姓名:马艳

学院:数学科学学院 班级:08(7)班 学号:08213203

【摘要】近代和现代统计分析方法中,抽样法是最重要,最常用的方法之一。不论在工业生产过程的质量控制、农产量调查,还是居民生活水平等方面,抽样法都显示了它的重要作用。在经常使用的抽样组织方式中,分层随机抽样以抽样误差小,抽样效果好的特点被广泛的应用于经济、资源、人口等多个方面,然而在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响。各层样本容量的确定是决定分层随机抽样效果高低、花费费用多少的关键。本文主要是通过介绍几种确定样本容量分配方法进一步加深对分层随机抽样方法的理解与应用。 【关键字】分层随机抽样 分配 样本容量 费用

一、 引言

在经济调查、市场调研实践、人口调查等统计抽样分析方法中,分层随机抽样以其效率相对高,费用相对少,精度高,方法灵活等优点而被人们所广泛的应用,成为近代统计分析方法中最重要,最常用的方法之一。分层随机抽样样本容量的确定可以说是:假若总的样本容量n固定,接下来的问题就是如何把这n个样本合理的分配到各层中去。在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响,这一方面是由于层的规模大小不同或在总体中所占的份额不同,另一方面是因为各层的层内方差Sh2不同,所有这些都会影响估计量的精度。因此,样本容量的分配关系到抽样调查的准确性以及抽样样本估计量的精度,因此从理论上来说研究分层抽样中各层样本量的分配问题对于抽样技术这门课程来说变得尤为重要。

二、 问题的提出

(一)分层随机抽样中层样本量分配的重要性

分层抽样也叫做类型抽样,它是实际工作中最常用,最重要的抽样技术之一。分层抽样是在抽样之前,先将总体按一定的标志划分为若干个层,然后在各层内分别独立的进行抽样。由此所得到的样本就成为分层样本,分层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就成为分层随机抽样。分层抽样的实质就是在各层间做全面的调查,而在各层内做抽样调查。因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。所以,为了能有效的降低抽样误差,提高抽样效果,在分层抽样时要遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。

在分层抽样中,解决层样本容量的分配问题,既是实施分层抽样调查的前提,又是保证抽样精度和估计误差尽可能小的关键因素。在分层随机抽样中考虑层中样本容量的分配问题就是要考虑在进行分层随机抽样调查中调查的精度和调查费用的多少的问题。即如何分配才能在费用一定时使总的精度和各层估计精度达到最高;在分层随机抽样中考虑层中样本容量的分配问题就是要考虑数据的处理问题,即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了;在分层随机抽样中考虑层中样本容量的分配问题就是要考虑各层的样本容量的大小问题,即将总体样本量n各分多少到各层中去。因此对于抽样调查者来说,若要保证抽样调查费用尽可能的低,抽样调查精度尽可能的高,则就要处理好对分层抽样中各层样本容量的分配问题。所以说分层随机抽样中层样本量分配问题在抽样技术研究中非常重要。

(二)国内外对该问题的研究简述

对于分层抽样中各层样本量的分配问题的研究由来已久,早在二十世纪五十年代,W.G.科克伦就在他的著作《抽样技术》中讲述了关于分层随机抽样各层样本容量的最优分配方法;在1985年,L?Kish出版的《抽样调查》一书中也介绍了分层抽样中的“元素的按比例抽样”和“不按比例抽样或最优分配”,但是这些内容都不够系统。上世纪九十年代末至本世纪初,中国的统计专家们也陆续出版了一些有关抽样技术的教材或著作,都有对国外分层抽样中层样本容量的分配方法的系统阐述。

基于上面对分层随机抽样的方法特点以及分层随机抽样中层样本容量的分配问题的重要性的分析介绍,下面重点介绍几种确定层样本容量多少的方法,既包括单变量情况下的也包括多变量情况下的。本文的立足点就是通过介绍几种确定样本容量分配方法进一步加深对分层随机抽样方法的理解与应用。

三、单变量情况下样本量在各层的分配

我们由前面知道,在考虑分层抽样中层样本容量的分配问题时要考虑抽样时的费用以及抽样的精度,基于这些问题的考虑总样本量n在各层中的分配方法有以下两大种: (一)比例分配

在分层抽样中,若各层的抽样比都相同,即fh?f,则称总样本量在各层中的分配为按比例分配(prop:proportional allocation)。此时

nh

Nh?nN(h=1,2,…..L)即共有L层

其中nh为每层的样本量,Nh为每层的总量,的样本量。

n

为分层抽样抽得的样本总量,

N为总

该种方法最早是由Bowley于1926年提出的。由式

nhNh?nN可以看出,任何一层中

的样本被抽中的概率均为fh?f,由此可见,比例分配的分层抽样是一种等概率抽样。这种样本也成为自加权样本。因为我们可以从下面的比例分配情况下总体均值Y与总体总值Y的估计量的表达式可以看出:

总体均值Y的估计量的表达式为:

LLh yprop??Wh?1yh??h?1nhn?(1nhnh?yi?1hi)?1Lnhhiy??nh?1i?1?y

总体总值Y的估计量的表达式为:

?Y?Nyprop? propnNLnhhi??yh?1i?1?Nny?1y f因此按比例分配的分层随机样本,估计量的形式特别简单而且它还有一个很优良的性质就是估计量还是无偏的,可以大大简化调查以后的数据处理问题,特别是对于大规模的多变量调查,自加权样本的优点就更明显了。

比例分配法是在实际工作中最常用的方法。由于它所抽取的样本容量考虑了各层的合理权重Wh,使得综合计算的样本指标能切合实际情况,增强了抽样估计的效果。

(二)最优分配

1、一般情形

在分层随机抽样中,对于给定的费用,使估计量的方差V?yst?达到最小,或者对于给定的估计量方差V,使得总费用达到最小的各层样本量的分配就称为最优分配(opt:optimum allocation)。由于考虑了费用因素,所以这种方法又被称为经济分配法。

由上述定义可以看出,在最优分配当中,不仅要考虑抽样调查的精度,而且把费用也纳入了考虑的范围之内,这在实际的抽样调查工作中是相当重要的。对于该种分配方法,一个值得考虑的问题就是费用函数该如何定义,在这里为了研究的方便,主要选择费用函数为线性的。即总费用函数为:

L CT?c0??ch?1hnh

其中,CT为总费用;c0为与样本量无关的固定费用;ch为在第h层中抽取一个单元的平均费

用。

L从总费用函数的公式CT?c0?nh?h?1Lchnh中可以看出,只有?chnh是与各层样本量

h?1有关的费用。最优分配的目标是同时权衡费用和方差两个指标,在方差给定时使费用尽

可能的小,或在费用给定时使方差尽可能的小。因此利用Cauchy-Schwarz不等式,可以得出(1)在给定方差V?yst?的情况下,使得总费用最小的层样本量的个数的确定公式为:

LL(?WhSh n?h?1ch)?(?WhSh/h?1Lch)

V??Wh?1hSh/N2(2)在给定总费用CT的情况下,使得方差V?yst?最小的层样本量的个数的确定公式为;

L(CT?c0)?(?WhSh/ n?h?1Lch)

?Wh?1hShch 最优分配的结果表明:nh与Nh,Sh成正比,而与ch成反比。从而得出下面的行动准则:倘若(1)第h层所含有的单元数较多;(2)第h层内部单元的差异程度较大;(3)第h层每个样本所需的费用较低,则对第h层需要抽取一个含量较多的样本。

2、特殊情形—内曼最优分配

上面所讨论的最优分配是一般情况下的最优分配,如果假定各层的单位抽样费用相等,即ch?c,那么费用函数就变为CT?c0?cn 。此时分配

nhn的表达式将大大的简化:

nh n?WhShL?NhShL?Wh?1hSh?Nh?1hSh

这种形式的分配就被称为内曼最优分配,简称为内曼分配。又称适度法,该种方法是最优分配的一个特例。

事实上,这一结论早在1923年就由俄国学者楚波罗给出了证明,但一直没有引起注意,直到1934年内曼重新给出它的证明,它才逐渐引起人们的重视,因此这种形式的最优分配常被称为内曼最优分配。

内曼最优分配法在考虑各层合理权重的情况下,又使抽样方差减小到可能范围,这种分配方法在使用时比比例分配法又前进了一步。

(三)最优分配与比例分配的精度比较

分层随机抽样中,依照定义,最优分配时估计量的精度比比例分配时估计量的精度高,但比例分配是自加权的,计算比较方便。而内曼分配考虑到层权和各层变异程度的因素,会使抽样精度大大提高,两者各有优点。但是在实际工作中具体选择哪种分配方法,则此时要对两种方法的估计量的精度进行一下比较。

我们知道比例分配时估计量的方差为: Vprop(yst)?1?fnS2?1n?S?21N?S

2而内曼分配时估计量的最小方差为:

Vopt(yst)?1nL(?WhSh)?h21N?S

2LL1?21?22V(y)?V(y)?S?(WS)?W(S?S)?0 ??optsthhhh??因此:propstn?h?nh若诸Sh 很接近,则比例分配与内曼最优分配的精度相差无几。只有当各层的Sh 相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的Sh 的离散程度加以分析,以决定是采用比例分配还是最优分配。

特别地,如果各层的容量、层内差异大小及层内平均每单元的抽样费用十分接近时,也可直接按等额方法分配总样本量。此时nh?nL。

(四)实际抽样中分配方法的选取原则

内曼分配是一般最优分配的特例,按比例分配又是内曼分配的特例,所以,一般最优分配是样本容量分配的通用规则。由于不同的分配规则引起的层样本容量不同,产生的抽样效果也会有差别,所以如果分配方式不当,就会引起抽样效果的损失。选取分配方法,应该考虑具体的调查目的,调查目的的不同,样本容量的选取规则也有差别。

1、调查目的是取得总体特定值的情况

在这种情况下,分层实际上是为了改进这些特定值估计量的效率。现实中采用分层抽样大多数是为了达到这一目的。

在实际工作中,比例分配法最常用。由于它所抽取的样本容量考虑了各层的合理权重,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值