抽样技术概述

概述

当数据集过于庞大时,我们无法加载如此庞大的数据,为了克服这种问题,同时确保数据信息尽可能少的丢失,我们需要使用抽样技术,选取数据的一个子集去较好的表示整个数据集。

基本概念

目标总体与抽样总体
  • 目标总体:所有研究对象的全体,或是希望从中获取信息的总体
  • 抽样总体:从中抽取样本的总体。通常与目标总体一致,但有时对于一个目标总体,抽样总体会有不同的选择
抽样框与抽样单元

抽样总体的具体表现是抽样框。

  • 抽样框:一份包含所有抽样单元的名单,对每个抽样单元编号,从而按一定的随机化程序抽样
  • 抽样单元:可以只包含一个个体,也可也包含若干个个体,还可以分级。
总体参数与统计量

抽样调查的目的是获得总体的某些特征,即总体参数,包括了总体均值、总体总值、总体比例、总体比率。

  • 总体均值
  • 总体总值
  • 总体比例
  • 总体比率

总体范围确定后,总体参数是客观存在的,但未知的需要通过抽样,根据样本调查结果对总体参数进行推断。常用的估计量有均值估计、总值估计、比例估计、比率估计、方差估计、偏差估计和均方误差估计。

  • 均值估计
  • 总值估计
  • 比例估计
  • 比率估计
  • 方差估计
  • 偏差估计
  • 均方误差估计
抽样误差与非抽样误差
  • 抽样误差:由于抽取样本的随机性造成的样本值与总体值之间的差异。
  • 非抽样误差:不少由于抽样的随机性,而是由于多种原因引起的估计值与总体参数之间的差异。

精度由误差来表现,若不考虑非抽样误差,则精度的具体体现就是抽样误差。

  • 抽样误差越小,样本统计量对总体参数进行估计的精度越高
  • 样本量越大,在其他条件相同的情况下,抽样误差越小,精度越高。

几种抽样方法

简单随机抽样

从抽样框中的N个抽样单元中随机地、一个一个地抽取n个单元作为样本,每次抽选中,所有未入选的待选单元入选样本的概率相等。或是所有样本一次从抽样框中同时抽出,每个样本被抽中的概率相等。

分层抽样

将抽样单元按某种特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。可分为等比例抽样和不等比例抽样。

整群抽样

把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查。

优点:由于只需要群的抽样框,简化了编制抽样框的工作量

缺点:估计精度较差,因为同一群内的单元比较相似,在样本量相同的情况下,抽样误差较大

多阶段抽样

类似整群抽样,首先抽取群,但不是调查群内的所有基本单元,而是进一步抽样,从群中选择若干个基本单元进行调查。例如,第一阶段抽取初级单元,第二阶段抽取二级单元,第三阶段抽取接受调查的基本单元就是三阶段抽样。但一般会尽可能减少抽取样本的阶段,每增加一个抽样阶段就会增添一份抽样误差,对总体的估计也会更加复杂。

优点:保证了样本相对集中,节约调查费用,不需要包含所有低阶段抽样单元的抽样框。在较大规模的抽样调查中经常使用。

系统抽样

将总体中抽样单元按一定顺序排列,在规定范围内随机抽取一个单元作为初始单元,然后按规则确定其他样本单元。

优点:均匀分布,操作简便,通过辅助信息对总体内的单元有组织的排列,能有效提高估计精度。

缺点:对方差的估计比较困难。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路过的风666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值