数据的来源
所有统计数据追踪其初始来源,都是来自调查或实验。但是,从使用者的角度看,统计数据主要有两个渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用,对此我们称为数据的间接来源。另一个是通过自己的调查或实验活动直接获得一手数据,对此我们称为数据的直接来源。
A. 数据的间接来源
如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据。
B. 数据的直接来源
虽然二手数据具有搜集方便、数据采集快、采集成本低等优点,但对一个特定的研究问题而言,二手资料的主要缺陷是针对性不够,所以仅仅靠二手资料还不能回答研究所提出的问题,这时就要通过调查和实验的方法直接获得一手资料。我们把通过调查方法获得的数据称为调查数据,把通过实验方法得到的数据称为实验数据。
调查方法
在数据采集阶段,统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的,相对包括两方面的含义:一个含义是针对研究问题而言的。不同的研究问题,对样本的要求会有所差别,对某一个研究问题,这可能是一个不错的样本,对另一个研究问题,这个样本可能就是糟糕的。另一个含义是针对调查费用与估计精度的关系而言的。
使用抽样采集数据的具体方式有多种,可以将这些不同的方式分为两类:概率抽样和非概率抽样。
A. 概率抽样
概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。它具有下面几个特点:
- 抽样时按一定的概率以随机原则抽取样本。所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单位,使每个单位都有一定的机会被抽中;
- 每个单位被抽中的概率是已知的,或是可以计算出来;
- 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。这就是说,估计量不仅与样本单位的观测值(也称观察值)有关,也与其入样概率有关
调查实践中经常采用的概率抽样方式有以下几种:
-
简单随机抽样
一般地,设一个总体含有N个个体,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,则这样的抽样方法叫做简单随机抽样。
-
分层抽样
分层抽样是将抽样单位按某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来,对总体的目标量进行估计。分层抽样有许多优点,例如,这种抽样方法保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,可以提高估计的精度;分层抽样既可以对总体参数进行估计,也可以对各层的目标量进行估计等。
-
系统抽样(等距抽样)
将总体中的所有单位(抽样单位)按一定的顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先制定好的规则确定其他样本单位,这种抽样方法称为系统抽样
B. 非概率抽样
非概率抽样是相对于概率抽样而言的,指抽取样本时不是依照随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。
非概率抽样的方式有多种,可以归为以下几种类型:
-
方便抽样
调查过程中调查员*依据方便的原则*,自行确定作为样本的单位。
方便样本无法代表有明确定义的总体,将方便样本的调查结果推广到总体是没有任何意义的。但是在科学研究中,使用方便样本可以产生一些想法以及对研究内容的初步认识,或建立假设。
-
判断抽样
判断抽样是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。
这种方式的抽样成本比较低,也容易操作,但由于样本是人为确定的,没有依据随机的原则,因而调查结果不能用于对总体有关参数进行估计
-
自愿样本
自愿样本指被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息。
-
滚雪球抽样
滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,继续进行调查。这个过程持续下去,就会形成滚雪球效应。
C. 概率抽样与非概率抽样的比较
概率抽样与非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类型取决于多种因素,包括研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、时间等。
由于非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。
使用概率抽样可以有效地避免主观选择带来的倾向性误差(系统偏差),可以计算和控制抽样误差
D. 搜集数据的基本方法
样本单位确定之后,对这些单位实施调查,即从样本那里得到所需要的数据,可以采用不同的方法。搜集数据的基本方法有以下几种:
-
自填式
自填式是指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷
-
面访式
面访式是指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这种调查方式。
-
电话式
电话式是指调查人员通过打电话的方式向被调查者实施调查
数据的误差
数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。
数据的误差有两类:抽样误差和非抽样误差
-
抽样误差(不可避免,一定存在的)
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的差异。在概率抽样中,我们依据随机原则抽取样本,可能抽中由这样一些单位组成的样本,也可能抽中由另外一些单位组成的样本。根据不同的样本,可以得到不同的观测结果。
抽样误差的大小与多方面因素有关。最主要的是样本量的大小,样本量越大,抽样误差就越小。
-
非抽样误差
非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差,只存在于概率抽样中;非抽样误差则不同,无论是概率抽样、非概率抽样,还是全面调查中,都有可能产生非抽样误差。非抽样误差有以下几种类型:
-
抽样框误差
-
回答误差
回答误差是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种,主要有理解误差、记忆误差和有意识误差
-
无回答误差
无回答误差是指被调查员拒绝接受调查,调查人员得到的是一份空白的答卷
-
调查员误差
这是指由于调查员的原因产生的调查误差。例如,调查员粗心,在记录调查结果时出现错误
-
测量误差
如果调查与测量工具有关,则很有可能产生测量误差
-
-
误差的控制
抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。但是,抽样误差是可以计算的。在对特定问题的研究中,研究人员对抽样误差有一个可以容忍的限度。
非抽样误差与抽取样本的随机性无关,因而在概率抽样和非概率抽样中都会存在(但抽样框误差仅在概率抽样中存在)。