大数据时代对于数据的搜集提出了更高的要求,在现有存储计算能力还难以满足处理全数据的需求时,抽样调查依然有其存在的价值。非概率抽样作为重要的抽样方法,关于其如何适应大数据特点讨论有一定现实意义。本文首先介绍了已有的非概率抽样方法,并提出互联网是大数据产生和存储的重要载体。在结合已有各类非概率抽样方法和互联网数据产生特点的基础上,该文给出了在面对互联网大数据时,如何继续使用非概率方法的讨论。
大数据的到来,迫使我们以大数据思维面对数据,这对我们以往的调查方法提出了挑战,在计算、存储能力的限制下,全数据还难以实现,抽样调查仍然将在一段时间内成为我们获取数据的重要方式,因此如何改进已有的抽样调查方法来适应大数据特点,就成为了我们亟需解决的问题,而非概率抽样方法作为重要的抽样方法,其如何适应大数据的特点也自然的成为了我们关注的重点。
一、现有非概率抽样方法简介
(一)目标抽样所谓目标抽样就是利用大量不同的延伸方法在隐藏总体中获得抽样人群。[1] 该抽样法往往会派遣调查员进入公共场所来招募所要研究的目标群体成员。从上述抽样过程我们可以看到该方法有非随机性,这也就导致我们难以较好的衡量抽样过程中的选择性偏差,而这种偏差可能会很大,这就阻碍了我们顺利的由样本推测总体。
(二)时间地点抽样该抽样指在特定的时间和空间内对目标群体进行抽样。时间地点抽样常在无法获取抽样框的情形中使用&