统计学基本概念

统计学基本概念

内容主要参考国家统计局:https://www.stats.gov.cn/zsk/s?tab=tjll&siteCode=tjzsk&sitePath=true
**表示重点内容

1. 什么是统计学

统计学是关于数据的一门学问。所有收集而来的数据都需要经过整理、分析才能得出结论,这就是统计学利用数据解决实际问题的全过程。但是你会发现,同一个数据可以使用不同的方法进行分析进而得出不同的结论,不同的数据使用同一种方法进行分析也可以得出不同的结论。如天气预报,不同的预报机构其预报结果不尽相同。而且,由统计分析得出的结论往往还具有不确定性(uncertainty),因为其描述的往往是某件事发生的机会(opportunity),可以用概率(probability)来衡量。如天气预报中的降水概率,众所周知,如果降水概率高达90%,那就很可能会下雨,如果降水概率仅为5%,则大家会认为几乎不会下雨。但是实际情况到底下不下雨,只能等到预报的那一天真正到来才知道。

统计学所关注的是大量可重复事物现象数量特征。这是因为在某些领域中,有些结论很难像用数学公式或定理那样进行确定性的描述。比如,父母身高比较高,一般人都会认为其孩子身高也会比较高。但是当你去观测某一对父母及其小孩的身高时,你会发现,有些身高比较高的父母,其孩子身高并不高。所以说,身高具有一定的随机性(randomness)。这种随机性可能跟人的基因、生活环境、后天饮食、生活习惯等各方面的因素都有关系。但是,从总体上来说,身高比较高的父母,其孩子身高保持有比较高的趋势,该规律早已被英国著名生物学家兼统计学家高尔顿(Francis Galton,1822-1911)于1855年通过试验数据所证实。一个人的身高可能高矮程度不同,这是随机的。但是从总体上来说,平均身高的稳定性说明了随机之中存在规律,这种规律就是统计规律。所以,可以更进一步地说,统计学也是一门找出统计规律的学问。

2. 总体**

总体(population),是所研究的全部个体或数据的集合,其中的每一个个体也称为元素(element,individual)。如,要研究北京市民对汽车限行措施的看法,总体便是全体北京市民对该问题的看法,每一个北京市民对该问题的看法便是构成该总体的个体,单个北京市民则是调查对象(object)。总体往往只有一个,一旦研究问题确定下来,总体也就确定了。所以说总体的特征是唯一确定的,但是是未知**。

描述总体特征的概括性数字度量称之为总体参数(parameter),是研究者想要了解的总体的某种特征值。总体参数主要有总体均值μ、标准差σ、总体比例π等。

总体可以分为有限总体和无限总体。有限总体的范围能够明确确定,且元素的数目是有限的,称为总体容量,一般用N表示;无限总体所包括的元素其数目是无限的。

  • 在数学上,总体通常用一个随机变量表示,假设为 X X X
  • 总体的概率分布可以用参数描述,例如均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2

数学表示:
X = { X 1 , X 2 , … , X N } X = \{ X_1, X_2, \ldots, X_N \} X={X1,X2,,XN}

这里 X 1 , X 2 , … , X N X_1, X_2, \ldots, X_N X1,X2,,XN 是总体中的个体或观测值。

3. 样本**

样本(sample),从总体中抽取的一部分元素构成的集合。同一个总体可以抽取出若干个样本组成集合,如从10000个北京市民中抽取出1000个人,有 C 10000 1000 C_{10000}^{1000} C100001000种抽法(不重复抽样情况下),每一种抽取方法得到的元素构成的集合都是样本。我们在获取数据的过程中,往往限于人力物力财力等因素,不可能穷尽所有抽取方法来搜集数据,研究者得到的一般都是这么多样本中的其中一个样本。所以,样本对于研究者11而言是不唯一、不确定的,但是一旦收集到一个样本的数据,其特征就可以通过所收集到的数据刻画出来。因此,样本的特征是已知的**

描述样本特征的概括性数字度量称之为样本统计量(statistics),它是根据样本数据计算出来的一些量,是样本的函数。样本统计量主要有样本均值 x _ \overset{\_}{x} x_、样本标准差s、样本比例p等。构成样本的元素的数目称为样本容量或样本量(sample size),一般用n表示。

  • 样本是从总体中抽取的一个部分,通常用 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,,Xn表示,其中 n n n是样本容量。
  • 样本是从总体中随机抽取的,因此它是一个随机变量。

数学表示:
{ X 1 , X 2 , … , X n } \{ X_1, X_2, \ldots, X_n \} {X1,X2,,Xn}
这里 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,,Xn是从总体 X X X 中抽取的样本。

总体和样本的区别在于,总体是一个完整的集合,而样本是从总体中选择的一个部分,用来进行统计推断和分析。

4. 统计方法**

有了数据,就可以运用统计分析方法对其进行分析。统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类

描述统计是研究数据搜集、处理、描述及可视化的统计学方法,其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。

推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计(estimation)和假设检验(hypothesis test)两大类。

5. 变量

每天晚上收看天气预报,你会发现今天的气温与明天的气温不同,今天是晴天,明天可能就是多云转阴;股票市场上的上证股指天天在变化;每个在职工作人员从事的职业不同、月收入不同;每个人的文化程度也不相同。这里的“天气温度”“天气形势”“上证股指”“职业”“月收入”以及“文化程度”就是变量。它们的特点是从一次观察到下一次观察会出现不同结果。把观察到的结果记录下来就是数据。

6. 数值型数据

数值型数据(numerical data)以数字作为主要特征,并且这些数字具有明确的数值含义,能够进行运算并且能测量出具体大小和差异。如上面例子中的“天气温度”“上证股指”“月收入”等,这些变量可以用数值表示。

7. 非数值型数据

非数值型数据(non-numeric data)以事物现象的属性或类别为主要特征。上面例子中的“天气形势”“职业”和“文化程度”等,都是从现象的属性来表现现象的特征。如“天气形势”变量的取值“天气晴”和“阴转多云”就是反映两种天气状况;“生产工人”和“公务员”就是两种不同的职业;“小学”和“大学”就反映了两种完全不同的“文化程度”。这类数据的最大特点是它只能反映现象的属性特点,而不能刻画出数量的差异。

8. 观测数据

观测数据(observational data)是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方法。**很多社会经济问题不适合应用实验的方法,只能通过实际调查得到数据,用各种调查方法得到的数据都属于观测数据。**例如,2020年我国的GDP、年末人口数据等。

9. 实验数据

实验数据(experimental data)一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方法应用非常普遍,因此,自然科学研究中所用的数据多为实验数据。例如,新开发药物的疗效测试、农作物品种试验等。

10. 横截面数据**

横截面数据(cross-section data)是在同一时间节点上或同一段时间内所收集的数据,描述多个观测对象在相同一段时间内或相同时间节点上的表现。例如,2020年我国各省、自治区、直辖市的GDP等。

11. 时间序列数据**

时间序列数据(time series)是按时间顺序在不同时间段或时点上取得的一系列数据,描述观测对象随着时间变化而变化的情况。例如,我国历年的GDP等。

12. 面板数据**

面板数据(panel data)是对不同观测对象在不同时间段或时点上所收集的数据,描述多个观测对象随着时间变化而变化的情况。例如,2010-2020年全国各省、自治区、直辖市的GDP。对于面板数据,如果只考虑某一时间段或时点的时候,它就是截面数据;如果只考虑某一观测对象的时候,它就是时间序列数据。

13. 原始数据

通过直接调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始数据或一手数据(first-hand data)。搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。

1. 统计调查

统计调查(survey),是指根据统计研究预定的目标、要求和任务,运用科学的方法,有计划、有组织地搜集客观实际资料的过程。通过统计调查得到的数据,一般是观测数据。

2. 实验

实验(experiment),是直接获得统计数据的又一重要来源,通过做实验得到的数据就是实验数据。实验不仅是一种搜集数据的方式,也是一种重要的研究方式。它是通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。

为了观察对输入变量的控制是否导致了输出变量的改变,在实验中往往需要将研究对象分为两个组:实验组(test group)和对照组(control group)。对实验组的输入变量加以控制或改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出的影响。

运用实验法要注意的是:首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识挑选的;其次,实验组和对照组还应当是匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。例如,要研究新开发出来的减肥药是否有效,就应当选择一些体重比较重的人分为实验组和对照组,而不应当选择一组体重较重的人而另一组体重较轻的人来做实验。

无论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。

14. 次级数据**

虽然统计数据的搜集主要是指对原始数据的搜集,后面将要介绍的统计调查方法也是围绕搜集原始数据展开的,但数据的收集实际上不仅包括对原始数据的收集也包括对次级数据(二手数据)的收集。在很多情况下,统计研究都是在掌握次级数据的基础上进行的。

次级数据(二手数据)是指由其他人搜集和整理得到的统计数据。限于一定的条件,研究者可能无法亲自收集数据,或者已知有些数据已有他人的调查成果,不必再重新再做一次。这时,就需要收集二手资料以满足研究的需要。这种建立在他人调查整理基础上的次级数据也称为数据的间接来源。

常见的数据间接来源主要有:

①公开出版的数据。主要来自政府部门、组织、学校、科研机构等,如:《中国统计年鉴》《人口普查资料汇编》《北京市统计年鉴》《世界发展报告》以及某大学或科研机构发布的研究数据、专业调查咨询机构发布的调查结果数据、各种媒体和书刊报纸中发布的统计数据等等。

②未公开发表的数据。如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。需要注意的是,如果引用未公开发表的数据,要注意合规性,需要征得数据所有者的同意,同时要为自己使用这些数据的后果负责。

③网络爬取的数据。大数据时代下,数据规模也是海量增长。在互联网中存在大量的数据,这些数据可以以数字、表格等结构化的形式存在,也可以以声音、图片、文字、视频等方法非结构化的形式存在。人们可以利用网络爬虫等技术手段,自动或者人工获取数据,并对这些爬取的数据进行加工和整理,进而用来分析。这些数据相对于爬取数据的人而言,也是二手数据,因为数据从无到有的过程是别人是实现的,不是爬取数据的人实现的,爬取数据的人只是完成了数据整合或整理的工作。

恰当地运用间接数据在实际中能够节约人力、物力、财力和时间,取得较好的成果和效益。但是,在使用间接数据时要注意其适用性和时效性。研究者应当分析原始资料搜集的目的与自己的研究目的是否相符,要搞清楚原始资料搜集的方法是否科学,原始资料的提供者是否公正、客观,还应注意数据的含义、计算口径和计算方法等是否具有可比性,避免数据误用或滥用。此外,尽量不使用过时已久的数据,在引用二手数据时一定要注明数据的出处或来源,尊重他人的劳动成果。

15. 普查

普查(census),是指为某一特定目的而专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会现象总量。它适于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。例如,我国第七次人口普查,就是摸清我国2020年11月1日零时这个时点上全国人口总数等方面国情。

普查不仅可以摸清一个国家的国情、国力,还可以了解与掌握人力、财力、物资资源状况及其利用状况,为国家制定长远规划与政策提供可靠的依据。普查的基本要求有:

(1)要有严密的组织和高质量的普查人员队伍;

(2)要有严格的时间要求。普查中要规定普查的标准时点,即对调查对象进行登记时要依据事先规定好的统一时点,所有调查资料必须都是反映在这一时点上的情况;

(3)普查的登记工作应在整个普查范围内同时进行,以保证普查资料的时效性准确性,避免资料的搜集工作拖得太久;

(4)调查项目和指标必须集中统一;

(5)同类普查的内容和时间在历次普查中应尽可能保持连贯性。

一般情况下,普查工作应尽可能按一定周期进行,以便进行历次普查资料的动态对比分析,认识客观发展规律。可见,普查的特点为:它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,准确性和标准化程度较高。因工作量大,普查时间周期较长、耗资也较多,一般不宜经常举行。

16. 概率抽样**

概率抽样(probability sampling),也称随机抽样(random sampling),是指遵循随机原则进行的抽样,总体中每个个体都有一定的机会被选入样本。从理论上讲,概率抽样是最科学的抽样方法,它能保证抽取出来的样本对总体的代表性。

概率抽样分为等概率抽样(equal probability sampling)和不等概率抽样(unequal probability sampling)。前者是指总体中每个单位被抽中的概率都相等,反之则称为不等概率抽样。

我国习惯上将概率抽样称为抽样调查。与非概率抽样相比,概率抽样具有下列特点:

第一,按照随机原则抽取样本。所谓随机原则就是在抽取样本时,每个个体都有一定的机会被抽中并出现在样本中,且被抽中的概率是已知的。抽样的随机性是通过抽样的随机化程序体现的,实施随机化程序可以使用随机数字表,也可以使用能产生符合要求的随机数序列的计算机程序。需要注意的是,随机不等于随便。随机有严格的科学含义,可以用概率来描述;而随便则带有人为的主观的因素。因此,随机与随便的本质区别就在于是否按照给定的入样概率,通过一定的随机化程序抽取个体形成样本。

第二,用样本统计量推断总体参数**。概率抽样是依据随机原则抽选样本,因此样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的参数进行估计。

第三,可以计算并控制抽样误差的大小。虽然抽样误差不可避免,但是可以计算并采取相应方法加以控制。

17. 抽样调查

抽样调查(sample survey),是一种非全面调查,它是按照一定程序从总体中抽取一部分个体作为样本进行调查,并根据样本调查结果来推断总体特征的数据调查方法。例如,你想了解消费者对某商品的满意度,可以从全体消费者中抽取出一个样本(如抽取500人)开展调查,获得样本数据。这里的全体消费者对该商品的满意度就是总体,它是包含所研究的全部个体的集合。所抽取出来的500个消费者对该商品的满意度就是一个样本,它是从总体中抽取的一部分个体所组成的集合,其样本量为500。

与其他调查方法相比较,抽样调查具有如下几个特点:

第一,经济性优。这是抽样调查的最显著优点。由于调查的样本通常是总体中的小部分,调查的工作量小,可以节省大量的人力、物力、财力和时间,调查费用较低。

第二,时效性强。抽样调查可以迅速、及时地获得所需要的信息。由于工作量小,调查的准备时间、调查时间、数据处理时间等都可以大大缩减,从而提高数据的时效性。与普查等全面调查方法相比,抽样调查可以频繁地进行。随着事物的发生和发展,及时取得有关信息,以弥补普查等全面调查的不足。

第三,适应面广。抽样调查可以获得更广泛的信息,它适用于对各个领域、各种问题的调查。从适用的范围和问题来看,抽样调查可用于调查全面调查能够调查的现象,也能调查全面调查所不能调查的现象,特别适合对一些特殊现象的调查,如产品质量检查、农产品试验、医药的临床试验等。从调查的项目和指标来看,抽样调查的内容和指标可以设计得更详细、更深入,能获得更全面、更广泛和更深入的数据。

第四,准确性高。抽样调查的数据质量有时比全面调查更高,这是因为全面调查的工作量大、环节多、登记性误差(或调查误差)往往更大。而抽样调查由于工作量小,可使各环节的工作做得更细致,误差往往更小。当然,用样本数据去推断总体特征时,不可避免地会有推断误差,但这种误差的大小是可以计算并加以控制的,因此推断的结果通常是可靠的。

抽样调查是一种非全面的、一次性的或经常性的专门调查,既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面统计资料,具有许多优点,是实际中应用最为广泛的一种调查方法。

18. 简单随机抽样**

简单随机抽样(simple random sampling)也称纯随机抽样,它是直接从总体中抽选个体,每个个体被选入样本的概率都相等,可分为有放回和无放回两种方式有放回抽样也称为重复抽样(repeated sampling),在一个个体被选入样本后,记录其编号,然后又将其放回总体中继续参与随后的抽样过程;无放回抽样也称不重复抽样(non-repetitive sampling),在一个个体被选入样本后,不再放回总体中继续参与随后的抽样过程。

简单随机抽样是一种最基本的抽样方法,其数学性质简单,理论也最为成熟,其他抽样方法都是在它的基础上发展起来的。这种方法的突出特点是简单、直观,用样本统计量对总体参数进行估计及计算估计量误差均比较方便。但是,简单随机抽样需要包含总体所有个体(即总体容量N)的抽样框(sampling frame,是指为抽样所使用的所有调查对象的名册或清单),并对抽样框中的每个个体编号,然后从中按照随机的原则一个个地抽取n个个体作为样本。但是当N很大时,构造这样的抽样框并不容易。根据这种方法抽出的个体较为分散,会给后续调查实施增加困难。这种方法没有充分利用其他辅助信息来提高估计效率。因此,在规模较大的调查中很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合起来使用。

19. 分层抽样**

分层抽样(stratified sampling)也称类型抽样,它首先将要研究的总体按某种特征或某种规则划分为不同的层(组),然后按照等比例或最优比例的方式从每一层(组)中独立、随机地抽取个体,最后将各层的样本结合起来对总体的目标量进行估计。

分层抽样有许多优点。这种抽样方法保证了样本中包含有各种特征的抽样单位,样本结构与总体结构比较相近,从而可以有效地提高估计的精度;当层(组)是按行业或行政区划进行划分时,分层抽样为组织实施调查提供了方便;分层抽样既可以对总体参数进行估计,也可以对各层的目标量进行估计。这些优点使分层抽样在实践中得到了广泛的应用。

20. 整群抽样

整群抽样(cluster sampling),是先将总体分为R个群或子总体,然后按某种方式从中随机抽取r个群,再对抽中的群中所有个体都进行调查的一种抽样方式。

与简单随机抽样相比,整群抽样的特点在于:首先,抽取样本时只需要群的抽样框,而不必要求包括所有单位的抽样框。这大大简化了编制抽样框的工作量;其次,由于群通常是由那些地理位置邻近的或隶属于同一系统的单位所构成,因此调查的地点相对集中,从而节省了调查费用,方便了调查的实施。

整群抽样的主要缺点是估计的精度较差,因为同一群内的单位或多或少有些相似,在样本量相同的条件下整群抽样的抽样误差通常比较大。一般说来,要得到与简单随机抽样相同的精度,采用整群抽样需要增加基本调查对象。

21. 系统抽样

系统抽样(systematic sampling),也称等距抽样。它是将总体N个个体按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。典型的系统抽样是先从数字1—k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k,…。

系统抽样的主要优点是操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度;缺点是对估计量方差的估计比较困难

22. 非概率抽样

不满足概率抽样要求的抽样都被归为非概率抽样(non-probability sampling)。非概率抽样没有完全按照随机原则选取样本单位,其中单个单位被选中的概率是不可知的,样本统计量的分布不确定,因而无法计算抽样误差,也无法使用样本的结果对总体相应的参数进行推断。虽然从理论上讲,非概率抽样不能保证抽出来的个体对总体的代表性,不能够由样本的特征准确地推断总体的特征,但是由于该种方法简单、经济、便捷,所以也是人们常用的方法。

23. 方便抽样

方便抽样(convenience sampling),也称为便利抽样、偶遇抽样。它主要用于初期评估的探索性研究。调查过程中由调查员依据方便的原则自行确定抽入样本的个体。如,在实施问卷调查过程中,访问员碰人即问或被调查者主动回答问题。方便抽样的优点是容易实施,调查的成本低;缺点是样本的确定带有随意性,样本无法代表有明确定义的总体。

24. 判断抽样

判断抽样(judgment sampling),是调查者根据主观经验和判断从总体中选取有代表性的个体构成样本的一种非概率抽样方法。它不能获得估计值的精度,其精度取决于抽样者的经验,适用于总体中的个体极不相同而样本容量又很小的情况。

25. 配额抽样

配额抽样(quota sampling),类似于概率抽样中的分层抽样,是非概率抽样方法中常用的一种抽样方法。其操作比较简单,而且可以保证总体中不同类别的个体都能包括在所抽的样本中,使得样本结构和总体结构类似。

配额抽样通常分为两个步骤:第一,根据研究人员认为较重要的一些变量把总体分类,指定每一类中的样本数额;第二,在每一类中使用方便抽样或判断抽样的方法抽选指定数量的个体形成样本。

26. 统计报表

统计报表(statistical report forms),是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等),自上而下地统一布置、自下而上地逐级提供基本统计资料的一种调查方式。

国家利用它定期地取得全社会的国民经济与社会发展情况的基本统计资料,是国家取得调查资料的方法之一。这种调查方法是在过去中央计划管理体制下形成的,至今在官方统计的经常调查中依然发挥着一定的作用。其中,按照报送范围,统计报表有全面报表和非全面报表之分:全面报表要求调查对象中的每一个单位均要填报,非全面报表则只要求一部分调查单位填报;按照报送周期,统计报表主要有月报、季报、年报,月报内容简单、时效性强,年报则内容比较全面。

统计报表的内容包括以下几个方面:

(1)表式。它是由国家统计部门根据研究的任务与目的而专门设计制定的统计报表表格,用于搜集统计资料。它是统计报表制度的主体。

(2)填表说明。它是对统计表的统计范围、指标等作出的规定。具体有:填报范围、指标解释、分类目录、其他有关事项的规定。

对于大型、国有企业来说,利用统计报表搜集数据具有时间快、成本低的优点;但对于大量的小型、非国有经济单位,则难以全面采用统计报表调查。具体采用以上哪种方法,要根据调查的目的与任务以及调查对象的特点来决定。

27. 雪球抽样

雪球抽样(snowball sampling),也称为滚雪球抽样,其原理是先找到最初的样本,然后根据他们提供的信息去获得新的个体形成样本。这种过程不断继续,直到完成规定的样本容量为止。滚雪球抽样往往用于对稀少的特定群体的调查。

28. 重点调查

重点调查(survey of main units),是在调查对象中选择一部分重点单位进行的一种非全面调查。重点调查的关键是准确恰当地选取重点样本。选取重点样本时,一般采取系统分析、综合比较的方法,选择对总体能起主要或决定作用的因素。这些重点单位虽然数目不多,但它们具有所研究现象的总量在总体总量中占据绝大部分的特点。

因此,当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。例如,为了掌握全国电商零售领域的销售状况,可以选择针对天猫、淘宝、京东、唯品会等几个大型电商企业进行调查,而不必要向全国所有的电商企业调查,即可掌握情况。

同全面调查比较,重点调查可以节省人力、财力,而且及时。所以当调查任务只要求掌握事物的基本情况时,采用重点调查为好。

29. 典型调查

典型调查(typical survey),是一种非全面的专门调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的被调查对象进行的调查。其主要作用是:第一,补充全面调查的不足。例如补充定期报表、年度报表只有数据而没有具体情况的不足;第二,在一定的条件下可以验证全面调查数据的真实性。

典型调查同其他调查方法比较,具有灵活机动、通过少数典型即可取得深入、翔实的统计资料的优点。但是,这种调查由于受“有意识地选出若干有代表性”的限制,在很大程度上受人们主观认识上的影响。因此,必须同其他调查结合起来使用,才能避免出现片面性。

30. 抽样误差**

抽样误差(sampling error),是由于抽取样本的随机性所造成的样本值与总体值之间的差异,也称为代表性误差。抽样调查中之所以会出现这样一种误差是由于样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差。在抽样调查中,抽样误差是不可避免的。在概率抽样中,抽样误差是能够计量且可以得到控制的。

抽样误差的大小取决于以下因素:第一,总体内部的差异程度。在其他条件不变时,总体内部差异越大,抽样误差就越大;反之,抽样误差就小;第二,样本容量的大小。在其他条件不变时,样本容量越大,抽样误差越小。抽样误差常会随着样本容量的增加而缩小,但在一定阶段后便稳定下来;第三,抽样的方式与方法。不同的抽样方法产生的抽样误差也有差异。相同条件下,重复抽样比不重复抽样的抽样误差要大,分层抽样的抽样误差要小于其他类型抽样方式的抽样误差。以上三个因素除第一个因素外,其余两个都是人为决定的。因此,抽样误差可以创造条件加以控制,这就大大提高了抽样调查的应用价值。

31. 非抽样误差

非抽样误差(non-sampling error),是指除了抽样误差之外调查中因各种原因所引起的调查误差。通常认为非抽样误差是由于调查程序执行中的错误与不足引起的,它不仅出现在概率抽样和非概率抽样中,也出现在全面调查和非全面调查中,可能产生于调查方案设计、抽样设计、数据搜集、数据处理及分析等各个阶段与环节。抽样调查不能通过增大样本量加以控制,对调查结果的影响也非常大,甚至可能导致整个调查的失败。

与抽样误差相比,非抽样误差具有成因复杂、难以识别和测量、容易造成估计量有偏以及不可能随着样本量的增大而变小的特点。非抽样误差分为抽样框误差、应答误差、无回答误差和计量误差等。

32. 抽样框误差**

抽样框误差(sampling frame error),指目标总体和抽样总体不一致时产生的误差。目标总体是指调查研究对象的全体,而抽样总体是从目标总体中抽选样本的总体。在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位。抽样单位可以是一个个体,也可以包含多个个体。抽样单位的名单就是抽样框。例如,名单抽样框、区域抽样框、时间表抽样框等。为避免抽样框误差,应尽可能使抽样框与目标总体相一致。

抽样框误差包括以下几种情形:

第一,丢失目标总体单元。在这种情形抽样框没能覆盖全部总体单元,它使总体总和估计偏低,同时也会造成均值(或比例)估计的偏倚。

第二,包含非目标总体单元。抽样框包含了一些不属于研究对象的即非目标总体单元,在这种情形常造成总体总和估计的偏高。

第三,复合连接。抽样框中的单元与目标总体单元不完全是一对一对应而是存在一对多或多对多的现象。这种情况称为抽样框与目标总体存在着复合连接。

第四,不正确的辅助信息。有些复杂抽样框还包含辅助消息,如当采用分层抽样、不等概率抽样以及使用比估计或回归估计等情形,如果这些辅助信息不完全或不正确,不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。

33. 应答误差

应答误差(response error),是指调查者在接受调查时给出的答案与实际情况不相符。产生应答误差的原因可能有理解、记忆、有意被误导等多种情况。例如被调查者对问题的理解产生偏差,被调查者可能忘记了过去发生的事情但却胡乱猜测,被调查者由于对某些问题不愿回答而避开真实情况,长期问卷调查可能会导致答题疲劳从而给出一些错误的答案,调查者的不正确提示被误导而错答等。

34. 无回答误差

尽管随机抽样可能是从适当的抽样框架中选出的,但也不能保证样本中的每个人都会回答问题或回答所有的问题。无回答误差(response error),是指在调查中由于各种原因没有能够对被所抽取样本中个体进行计量,没有获得有关样本中个体的信息而造成的偏误。无回答误差可以分为个体无回答和项目无回答。个体无回答是指被调查者没有参与或拒绝接受调查;项目无回答是指被调查者虽然接受调查,但对其中的一些调查项目没有回答。

产生无回答误差的原因很多,主要有被调查者和调查者的原因。如被调查者因繁忙抵触访问;调查问卷中的问题、调查者失误等而拒访或不回答;地址有误、被调查者不在、无法与被调查者取得联系等也会造成无回答误差。此外,无回答误差与一个地区的经济发达程度及公民素质有很大关系。为提高调查回答率,应做好宣传、问卷设计、调查员培训、奖励与激励等工作,使被调查者愿意配合调查。

35. 计量误差

计量误差(measurement error),是除了抽样框误差、应答误差和无回答误差之外的非抽样误差,它是由多种复杂原因所造成的调查中获得的数据与其真值不一致的误差,可能是由于问卷设计不合理产生的,也有可能是调查时产生的,还有可能是登记错误、数据录入错误等。为减少计量误差,需要科学设计问卷,认真做好数据调查及整理工作。

  • 20
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值