【抽样调查】分层抽样上

原创于 2024-05-08 21:06:14 发布

· 4.6k 阅读

30 ·

版权

文章标签：

#数据分析 #笔记 #概率论

数学统计知识专栏收录该内容

5 篇文章

订阅专栏

碎碎念：在大一大二时听课有的时候会发现听不太懂，那时候只觉得是我自己的基础不好的原因，但现在我发现“听不懂”是能够针对性解决的。比如抽样调查这门课，分析过后我发现我听不懂的原因之一是“没有框架”，一大堆知识扑面而来但我没有建立起自己的逻辑框架，那些零零碎碎的知识看起来毫无章法，才导致我听不懂。那今天的分层抽样就按照讲故事的顺序展开吧~

第一次更新：2024/5/8

一. 分层抽样概述

1. 什么是分层抽样

我们先不看课本上那一长串的符号描述，我们来看国家统计局的定义：

分层抽样（stratified sampling）也称类型抽样，它首先将要研究的总体按某种特征或某种规则划分为不同的层（组），然后按照等比例或最优比例的方式从每一层（组）中独立、随机地抽取个体，最后将各层的样本结合起来对总体的目标量进行估计。

这么来看，分层抽样做的不过就是三个工作：分层、抽样、估计。

那我们就按照这个顺序来展开这项工作。

2. 如何分层

国家统计局的定义里写道 “ 将研究的总体按某种特征或某种规则划分为不同的层（组）”，在实际抽样操作中通常确实采用这种方式，如按照行政机构设置来分层、按照社会经济特征（家庭规模、收入水平等）。但是我们如果在抽取一些工厂样品时，没有明显特征，但是又想要用分层那该怎么分？那就用到统计方法了。

我们在这里将有明显特征的数据定义为“特征分层”，无明显特征的数据定义为“自然分层”。（只是为了方便书写的描述，主要小编没有找到这两者都兼顾到的相关的论文）

⭐ 分层原则

层内相似，层间相异（提高估计精度）
不重不漏

（1）特征分层

特征分层是什么？

在分层抽样中，通常会根据一定的特征或因素对总体进行分层，这些因素可以根据研究目的和总体特征来选择。例如，可以根据地区、年龄、性别、职业、收入等因素进行分层。每个层应该具有相似的特征，以便在每个层中进行随机抽取样本时能够更好地代表该层的特点。

为什么要进行特征分层？

首先，根据总体的某些特征来分层操作较为简便

其次，根据总体中的人口特征（如年龄、性别、职业、收入等）、地理位置、时间等因素进行分层，可以更好地研究不同群体在不同环境或条件下的变化和趋势。

如何进行特征分层？

在实际操作中我们通常会按照行政机构设置来分层，当层（组）是按行业或行政区划进行划分时，分层抽样为组织实施调查提供了方便。

比如在最近一场市场调查分析大赛中，我们调查的对象是全体武汉市常住居民，首先通过PPS抽样从武汉市的13个区中抽取6个行政区，接着采用分层抽样从6个行政区中抽取入样街道。依据这样的分层标准，在实时操作中极大提高了效率。

（2）自然分层

什么是自然分层？

自然分层/组，通常是按照数据集自身特征进行分组（可以等距也可以不等距）。来个例子理解一下：

第一列的组限就是我们自然分组的标识。

为什么要进行自然分层？

调查总体没有什么明显特征时通常可以用自然分组来分类汇总。

如何确定分层的层数？——累计平方根法

我们在这里只讲结论和应用，具体论证可以看这篇论文：

“累积平方根法”最优解严格的数学证明及应用 - 道客巴巴

主要原理就是要保证层内相似，层间相异

DH方法（累计平方根）给出结论：各层所占的频率（频数）的平方根与各层所占间距的平方根之乘积相等。也就是保证分层后的：

$\sqrt{d_iN_i}\approx \sqrt{d_jN_j}$

其中di表示第i层的层内间距，Ni表示第i层的频数。

我们直接上干货——做题方法

在这一类型的题目中通常会给我们一些数据变量：在一个表格中列出分层变量的取值范围（组限）、对应的频数、频数的平方根、向下累积的频数平方根。如下：

step1. 初步分层

经验模拟表明使用5~6个层是比较适宜的。

摘自《抽样调查》北大出版社

如果要分k层，就用累计频数平方根除以k得到分层点。

我们就用右下角那个累计的数字1483.44除以5得296.69

那就规定第一层边界点在296.69处，第二层边界点在2×296.69＝593.38处，第三层边界点在3×296.69＝890.07处以此类推。是不是发现表内的累计 $\sqrt{dN}$ 和我们计算出的有点差距，没关系我们找最接近这个值的当作边界点就可以。

step2. 合并层并计算新的 $\sqrt{dN}$

我们将这5个层的组距d，频数N，和 $\sqrt{dN}$ 进行统计，绘制新表格：

step3. 修正分层（看情况可以不写）

那怎么知道我们分的好不好呢？这就要用到我们说的DH方法（也就是累计平方根）原理了（人话版）：

看最后一列 $\sqrt{dN}$ 差距大不大，明显很大就调整，不大就分成这样就行了。

309.84、297.99、283.73、267.58、352.14这几个数里267.58很明显有点小，而352.14又很明显有点大。所以可以尝试给第四层多50个样本，第五层少50个样本，再做新统计：

层	间距d	频数N	√𝒅𝑵
第一层	2400	40	309.84
第二层	1200	74	297.99
第三层	700	115	283.73
第四层	450	226	267.58
第五层	200	449	352.14

现在 $\sqrt{dN}$ 是不是差不多了。

“给第四层多50个样本，第五层少50个样本”这一步数据哪儿来的，还有另一个组限分的更细的表有写，如果题目只给了上面一个表，咱就不需要再调整了。

3. 如何抽样

我们在这个部分聚焦于两个问题：怎么抽和抽多少，专业一点就叫做抽样方式和样本量分配。

（1）抽样方式

如果每层都是按照简单随机抽样进行抽取，则是分层随机抽样，大多数情况下都是分层随机抽样。
分层抽样也可以依据每层样本的特点选择合适的抽样方式如：PPS抽样、ΠPS抽样等

（2）样本量确定

想要确定我们在每层抽多少我们还需要考虑两方面：一共要抽多少（总样本量确定）以及每层抽多少（样本量分配）。

1）总样本量确定

先看这篇文章，我们会再单独出一期详细的样本量确定方法的

《抽样技术》第3章分层随机抽样（st）_累计平方根-CSDN博客

2）样本量分配

我们知道要抽取的总的样本量为n，划分层数为K层时，每层抽取的样本量假设为ni。

等额分配

各层样本量： $n_i=\frac{n}{K}$

按比例分配

各层样本量： $n_i=n\cdot \frac{N_i}{N}=n\cdot W_i$

均方误差： $V(\bar{y_{st}})=\frac{1-f}{n}\sum_{i=1}^{K}W_iS_{Yi}^2$

适用情况：各层单元数或者层权已知，其他信息量很少

奈曼最优分配

各层样本量： $n_i=n\frac{W_iS_i}{\sum_{j=1}^{K}W_jS_j}$

均方误差： $V(\bar{y_{st}})=\sum_{i=1}^{K}(\frac{1}{n_i}-\frac{1}{N_i})W_i^2S_i^2$

最小均方误差： $V(\bar{y_{st}})=\frac{1}{n}(\sum_{i=1}^{K}W_i^2S_i)^2-\frac{1}{N}\sum_{i=1}^{K}W_iS_i^2$

核心原理：层内方差最小

考虑费用的最优分配

费用表示： $C=C_0+\sum_{i=1}^{K}n_iC_i$

样本总量： $n=\frac{C-C_0}{\sum_{i=1}^{i=k}\sqrt{C_i}W_i S_i}\cdot\sum_{i=1}^{i=K}\frac{1}{\sqrt{C_i}W_iS_i}$

各层样本量： $n_i=n\frac{W_iS_i}{\sum_{i=1}^{K}W_iS_i}\propto \frac{W_iS_i}{\sqrt{C_i}}$

适用情况：费用固定层内方差最小；层内方差固定费用减少