数据分析之统计学(贾俊平)学习笔记二

2.1 数据的来源

2.1.1 数据的间接来源

如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工,整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据。如统计部门和各级政府公布的有关资料,各类信息中心,调查机构的数据,各种经营活动过程中的统计报表等。

相对而言,这种二手资料的搜集比较容易,采集数据的成本低,并且能很快得手。但二手资料也有很大的局限性,研究者使用二手资料要保持谨慎的态度。在使用二手资料之前,对二手资料进行评估是有必要的。

对二手资料进行评估可以考虑如下一些内容:

(1)资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。例如,对于全国性的宏观数据,与某个专业的调查机构相比,政府有关部门公布的数据可信度更高。

(2)为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。

(3)数据是怎样搜集的?数据的质量来源于数据的产生过程,如果不了解搜集数据所用的方法,则很难对数据的质量做出客观的评价。

(4)什么时候搜集的?过时的数据,其说服力自然受到质疑。

使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。

2.1.2 数据的直接来源

通过自己的调查或实验活动,直接获得的第一手数据,对此我们称为数据的直接来源。

二手数据虽然搜集方便,但对一个特定的研究问题而言,二手资料的主要弱点是针对性不够,所以仅仅靠二手数据还不能回答研究所提出的问题,这时就要通过调查和实验的方法直接获得一手资料。我们把通过调查方法获得的数据称为调查数据,把通过实验方法获得的数据称为实验数据。

调查通常是针对社会现象而言的。例如,社会学家通过搜集有关人的数据以了解人类行为。调查数据通常取自有限个体。如果调查针对总体中的所有个体单位进行,就把这种调查称为普查。普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。但是,总体比较大时,进行普查耗时耗力成本高,因此普查不能经常进行。

实验大多是对自然现象而言的。例如,农学家通过实验了解水分、温度对农作物产量的影响。

2.2 调查数据

2.2.1 概率抽样和非概率抽样

在数据采集过程中,统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的,相对包括两方面的含义:一个含义是针对研究的方面而言的。不同的研究问题,对样本的要求会有所差别,对某一研究问题,这可能是一个不错的样本,对另一个研究问题,这个样本可能是糟糕的。另一个含义是针对调查费用与估计精度的关系而言的。进行数据搜集要投入一定的费用并希望获得更多的高质量数据,但这两者往往是有矛盾的,一个好的样本应具有最好的性价比。在研究者中,我们对估计结果的精度要求是可以有差别的,有些数据相对而言不太重要,放松精度节省费用是一个不错的选择。

使用抽样采集数据的具体方式有许多种,可以将这些不同的方式分为两类:概率抽样和非概率抽样。

<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值