概述
当数据集过于庞大时,我们无法加载如此庞大的数据,为了克服这种问题,同时确保数据信息尽可能少的丢失,我们需要使用抽样技术,选取数据的一个子集去较好的表示整个数据集。
基本概念
目标总体与抽样总体
- 目标总体:所有研究对象的全体,或是希望从中获取信息的总体
- 抽样总体:从中抽取样本的总体。通常与目标总体一致,但有时对于一个目标总体,抽样总体会有不同的选择
抽样框与抽样单元
抽样总体的具体表现是抽样框。
- 抽样框:一份包含所有抽样单元的名单,对每个抽样单元编号,从而按一定的随机化程序抽样
- 抽样单元:可以只包含一个个体,也可也包含若干个个体,还可以分级。
总体参数与统计量
抽样调查的目的是获得总体的某些特征,即总体参数,包括了总体均值、总体总值、总体比例、总体比率。
- 总体均值
- 总体总值
- 总体比例
- 总体比率
总体范围确定后,总体参数是客观存在的,但未知的需要通过抽样,根据样本调查结果对总体参数进行推断。常用的估计量有均值估计、总值估计、比例估计、比率估计、方差估计、偏差估计和均方误差估计。
- 均值估计
- 总值估计
- 比例估计
- 比率估计
- 方差估计
- 偏差估计
- 均方误差估计
抽样误差与非抽样误差
- 抽样误差:由于抽取样本的随机性造成的样本值与总体值之间的差异。
- 非抽样误差:不少由于抽样的随机性,而是由于多种原因引起的估计值与总体参数之间的差异。
精度由误差来表现,若不考虑非抽样误差,则精度的具体体现就是抽样误差。
- 抽样误差越小,样本统计量对总体参数进行估计的精度越高
- 样本量越大,在其他条件相同的情况下,抽样误差越小,精度越高。
几种抽样方法
简单随机抽样
从抽样框中的N个抽样单元中随机地、一个一个地抽取n个单元作为样本,每次抽选中,所有未入选的待选单元入选样本的概率相等。或是所有样本一次从抽样框中同时抽出,每个样本被抽中的概率相等。
分层抽样
将抽样单元按某种特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。可分为等比例抽样和不等比例抽样。
整群抽样
把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查。
优点:由于只需要群的抽样框,简化了编制抽样框的工作量
缺点:估计精度较差,因为同一群内的单元比较相似,在样本量相同的情况下,抽样误差较大
多阶段抽样
类似整群抽样,首先抽取群,但不是调查群内的所有基本单元,而是进一步抽样,从群中选择若干个基本单元进行调查。例如,第一阶段抽取初级单元,第二阶段抽取二级单元,第三阶段抽取接受调查的基本单元就是三阶段抽样。但一般会尽可能减少抽取样本的阶段,每增加一个抽样阶段就会增添一份抽样误差,对总体的估计也会更加复杂。
优点:保证了样本相对集中,节约调查费用,不需要包含所有低阶段抽样单元的抽样框。在较大规模的抽样调查中经常使用。
系统抽样
将总体中抽样单元按一定顺序排列,在规定范围内随机抽取一个单元作为初始单元,然后按规则确定其他样本单元。
优点:均匀分布,操作简便,通过辅助信息对总体内的单元有组织的排列,能有效提高估计精度。
缺点:对方差的估计比较困难。