第2章 数据的搜集
2.1 数据的来源
2.1.1 数据的间接来源
如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工,整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据。如统计部门和各级政府公布的有关资料,各类信息中心,调查机构的数据,各种经营活动过程中的统计报表等。
相对而言,这种二手资料的搜集比较容易,采集数据的成本低,并且能很快得手。但二手资料也有很大的局限性,研究者使用二手资料要保持谨慎的态度。在使用二手资料之前,对二手资料进行评估是有必要的。
对二手资料进行评估可以考虑如下一些内容:
(1)资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。例如,对于全国性的宏观数据,与某个专业的调查机构相比,政府有关部门公布的数据可信度更高。
(2)为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。
(3)数据是怎样搜集的?数据的质量来源于数据的产生过程,如果不了解搜集数据所用的方法,则很难对数据的质量做出客观的评价。
(4)什么时候搜集的?过时的数据,其说服力自然受到质疑。
使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
2.1.2 数据的直接来源
通过自己的调查或实验活动,直接获得的第一手数据,对此我们称为数据的直接来源。
二手数据虽然搜集方便,但对一个特定的研究问题而言,二手资料的主要弱点是针对性不够,所以仅仅靠二手数据还不能回答研究所提出的问题,这时就要通过调查和实验的方法直接获得一手资料。我们把通过调查方法获得的数据称为调查数据,把通过实验方法获得的数据称为实验数据。
调查通常是针对社会现象而言的。例如,社会学家通过搜集有关人的数据以了解人类行为。调查数据通常取自有限个体。如果调查针对总体中的所有个体单位进行,就把这种调查称为普查。普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。但是,总体比较大时,进行普查耗时耗力成本高,因此普查不能经常进行。
实验大多是对自然现象而言的。例如,农学家通过实验了解水分、温度对农作物产量的影响。
2.2 调查数据
2.2.1 概率抽样和非概率抽样
在数据采集过程中,统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的,相对包括两方面的含义:一个含义是针对研究的方面而言的。不同的研究问题,对样本的要求会有所差别,对某一研究问题,这可能是一个不错的样本,对另一个研究问题,这个样本可能是糟糕的。另一个含义是针对调查费用与估计精度的关系而言的。进行数据搜集要投入一定的费用并希望获得更多的高质量数据,但这两者往往是有矛盾的,一个好的样本应具有最好的性价比。在研究者中,我们对估计结果的精度要求是可以有差别的,有些数据相对而言不太重要,放松精度节省费用是一个不错的选择。
使用抽样采集数据的具体方式有许多种,可以将这些不同的方式分为两类:概率抽样和非概率抽样。
<