数据的搜集

最新推荐文章于 2025-04-04 23:39:01 发布

我不爱机器学习

最新推荐文章于 2025-04-04 23:39:01 发布

阅读量1w

点赞数 4

分类专栏：统计

本文链接：https://blog.csdn.net/mengjizhiyou/article/details/83104521

版权

统计专栏收录该内容

57 篇文章

订阅专栏

一、数据的来源

1、间接来源

定义：数据由别人通过调查或实验的方式搜集，使用者只是找到它们并加以使用

优点：二手资料搜集容易，采集数据成本低，很快得到

局限：二手资料不是为特定的研究问题而产生的，所以在回答所研究的问题方面有欠缺

对二手资料评估：

资料是谁搜集的？考察数据搜集者的实力和社会信誉度。政府或机构
为什么目的而搜集？为了某个集团利益而搜集数据是值的怀疑的
数据是怎样搜集的？搜集数据方法多样，不同方法搜集的数据其解释力和说服力不同。若不了解搜集数据所使用的方法，很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程。
什么时候搜集的？过时的数据，其说服力自然受到质疑。
使用二手数据，要注意数据的定义、含义、计算口径和计算方法，避免错用、误用、滥用。在引用二手数据时，应注明数据来源。

2、直接来源

定义：通过自己调查（调查数据）或实验（实验数据）活动，直接获得第一手数据

调查是对社会现象而言。调查数据通常取自有限总体，即总体所包含的个体单位是有限的。如果调查针对总体中的所有个体单位进行，这种调查称为普查。普查数据具有信息全面、完整的特点，对普查数据的全面分析和深入挖掘是统计分析的重要内容。当总体很大时，普查涉及范围广，接受调查单位多，耗时、费力，调查成本高，普查不可正常进行。

实验大多是对自然现象而言。

二、调查数据

数据采集阶段，关键问题是如何抽选出一个好的样本。好的样本是相对而言的，包括两方面：针对研究问题，不同的研究问题，对样本要求会有所差别，对某一个研究问题，这可能是一个不错样本，对另一个问题，这个样本可能就是糟糕的，所以进行什么样的抽样设计首先取决于研究目的；针对调查费用与估计精度的关系而言。

抽样采集数据的方式：

1、概率抽样（probability sampling ）

定义：也称随机抽样，是指遵循随机原则进行额抽样，总体中每个单位都有一定的机会被选入样本。

（1）特点：

抽样时是按一定的概率以随机原则抽取样本。随机原则：抽取样本时排除主观上有意识地抽取调查单位，使每个单位都有一定的机会被抽中。随机不等于随便，随机有严格的科学含义，可用概率描述，随便带有人为的主观因素。随机与随便的本质区别在于，是否按照给定的入样概率，通过一定的随机化程序抽取样本单元。
每个单位被抽中的概率是已知的，或是可以计算出来的。
当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。估计量不仅与样本单位的观测值有关，也与其入样概率有关。
概率抽样与等概率抽样：指总体中的每个单位都有一定的非零概率被抽中，单位之间被抽中的概率可以相等，也可以不等，前者等概率抽样，后者不等概率抽样。

（2）概率抽样方式

简单随机抽样(simple random sampling)	定义：从总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本，实施随机化程序可以使用随机数字表，也可使用能产生符合要求的随机数序列的计算机程序。进行概率抽样需要抽样框，抽样框包括所有总体单位信息。作用不仅在于提供备选单位的名单以供抽选，还是计算各单位入样概率的依据。简单随机抽样是一种最基本的抽样方法，使其它抽样方法的基础。简单直观，在抽样框完整时，可直接从中抽取样本，由于抽选的概率相同，用样本统计量对目标量进行估计及计算估计量误差都比较方便。局限：要求包含所有总体单位的名单作为抽样框，当N很大时，构造这样的抽样框并不容易；其次，根据这种方法抽出的单位很分散，给实施调查增加了困难；最后，这种方法没有利用其它辅助信息以提高估计的效率。在规模较大的调查中，很少直接采用简单随机抽样，一般把这种方法和其他抽样方法结合起来使用。
分层抽样（stratified sampling）	定义：是将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来，对总体目标量进行估计。优点：保证了样本中包含有各种特征的抽样单位，样本的结构与总体的结构比较相近，从而提高估计的精度；分层抽样在一定条件下为组织实施调查提供可方便（当层是按行业或行政区划分）；分层抽样既可以对总体参数进行估计，也可以对各层的目标量进行估计。
整群抽样（cluster sampling）	定义：将总体中若干个单位合并为组，这样的组称为群。抽样时直接抽取群，然后对中选群中的所有单位全部实施调查。特点：抽取样本时只需要群的抽样框，不必要求包括所有单位的抽样框，简化了编制抽样框的工作量。由于群通常是由哪些地理位置邻近的或隶属于同一系统的单位所构成，因此调查的地点相对集中，从而节省调查费用，方便实施调查。弱点：估计的精度较差，因为同一群内的单位或多或少有些相似，在样本量相同的条件下，整群抽样的抽样误差较大。要得到与简单随机抽样相同的精度，采用整群抽样需要增加基本调查单位。
系统抽样（systematic sampling）	定义：将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位。典型系统抽样：先从数字1~k之间随机抽取一个数字r作为初始单位，以后依次取r+k,r+2k...。所以把系统抽样看成是将总体内的单位按顺序分成k群，用相同的概率抽取出一群的方法。优点：操作简便，如果有辅助信息，对总体内的单位进行有组织的排列，可有效提高估计的精度。缺点：对估计量方差的估计比较困难。
多阶段抽样（multi-stage sampling）	定义：采用类似整群抽样的方法，首先抽取群，但并不是调查群内所有单位，而是再进一步抽样，从选中的群中抽取出若干个单位进行调查。因为取得这些接受调查的单位需要两个步骤，所以称为二阶段抽样。群是初级抽样单位，第二阶段抽取的是最终抽样单位。这种方法推广，使抽样的段数增多，就称为多阶段抽样。抽取样本的阶段应尽量少。因为每增加一个抽样阶段。就会增加一份估计误差，用样本对总体进行估计就更复杂。优点：具有整群抽样的优点，保证了样本相对集中，节约调查费用；不需要包含所有低阶段抽样单位的抽样框；同时由于实行了再抽样，使调查单位在更广的范围内展开。在较大规模的抽样调查中，多阶段抽样经常用。

（3）概率抽样优点

可以依靠调查结果，计算估计量误差，从而得到对总体目标量进行推断的可靠程度。也可以按照要求的精确度，计算必要的样本单位数目。所有这些都为统计估计结果的评估提供了有力证据。所以，统计分析的样本主要是概率样本，即样本是采用概率抽样方式得到的。

2、非概率抽样（non-probability sampling ）

定义：是相对于概率抽样而言，指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。

类型：

方便抽样	调查过程中调查员依据方便的原则，自信确定入抽样本的单位。如调查员在街头、公园、商店等公共场所进行拦截式的调查；厂家在出售产品的柜台前对路过的顾客进行调查等。特点：容易实施，调查的成本低弱点：样本单位的确定带有随意性，因此，方便样本无法代表有明确意义的总体，将方便样本的调查结果推广到总体是没有意义的。如果研究的目的是对总体有关的参数进行推断，使用方便样本是不合适的。但在科研中，使用方便样本可产生一些想法以及对研究内容的初步认识，或建立假设。
判断抽样	定义：是另一种比较方便的抽样方式，是指研究人员根据经验、判断和对研究对象的了解，有目的地选择一些单位作为样本，实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。重点抽样：从调查对象的全部单位中选择少数重点单位，对其实施调查。这些重点单位数量不多，但在总体中占重要地位。如了解全国钢铁企业生产状况，可选择产量较大的几个钢铁企业，对重点单位调查，可了解钢铁产量大致情况及产量变化基本走势。典型抽样：从总体中选择若干个典型的单位进行深入的调研，目的是通过典型单位来描述或揭示所研究问题的本质和规律。因此，选择的典型单位应该具有研究问题的本质或特征。青少年犯罪，选取典型犯人，分析青少年犯罪规律。代表抽样：通过分析，选择具有代表性的单位作为样本，在某种程度上，也具有典型抽样的含义。某奶粉生产企业欲了解消费者对奶粉成分的需求，可调查一些年轻母亲，通过他们了解消费者购买奶粉时的选择意向。判断抽样是主观的，样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。成本较低，容易操作，但由于样本是人为确定的，没有依据随机的原则，因而调查结果不能用于对总体有关参数进行估计。
自愿样本	定义：指被调查者自愿参加，成为样本中的一份子，向调查人员提供有关信息。参与报刊上和互联网上刊登的调查问卷活动，向某类节目拨打热线电话等。自愿样本与抽样的随机性无关，样本的组成往往集中于某类特定的人群，尤其集中于对该调查活动感兴趣的人群，因此这种样本是有偏的。不能依据样本的信息对总体的状况进行估计，但自愿样本仍可给研究人员提供有价值的信息，可以反映某类群体的一般看法。
滚雪球抽样	定义：往往用于对稀少群体的调查。在滚雪球抽样中，首先选择一组调查单位，对其实施调查之后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，进行此后的调查。这个过程持续下去，就会形成滚雪球效应滚雪球抽样属于非概率抽样，因为与随机抽取的被调者相比，被推荐的被调查者在许多方面与推荐他们的那些人更为相似。优点：容易找到那些属于特定群体的被调查者，调查的成本较低。适合对特定群体进行研究的资料搜集。
配额抽样	定义：类似于概率抽样中的分层抽样，在市场调查中应用广泛。首先将总体中的所有单位按一定的标志（变量）分为若干类，然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。操作简单，可以保证总体中不同类别的单位都能包括在所抽的样本中，使得样本的结构和总体结构类似。抽取具体单位时不是依据随机原则，所以属于非概率抽样配额抽样中，可以按单一变量控制，也可按交叉变量控制。单一变量控制操作简单，但可能出现偏斜。交叉变量配额控制可以保证样本的分布更均匀，但现场调查中为了保证配额的实现，尤其是在调查接近结束时，所选的样本单位要同时满足特定的配额、调查对象的特征、调查费用、时间等。

3、概率抽样和非概率抽样的比较

（1）性质不同，在调查中采用何种抽样类型，取决于多种因素，包括研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、时间等。

（2）非概率抽样不是依据随机原则抽选样本，样本统计量的分布是不确切的，因而无法使用样本的结果对总体相应参数进行推断。若调查的目标是用样本的调查结果对总体相应参数进行估计，并计算估计的误差，得到总体参数的置信区间，不适合采用非概率抽样。非概率抽样特点：操作简便、时效快、成本低。且对于抽样中的统计学专业技术要求不是很高。适合探索性研究，调查结果用于发现问题，为更深入的数量分析做准备。也适合市场调查中的概念测试，如产品包装测试、广告测试等。

（3）概率抽样是依据随机原则抽取样本，这是样本统计量的理论分布是存在的，可根据调查结果对总体有关参数进行估计，计算估计误差，得到总体参数的置信区间，且进行抽样设计时，对估计的精度提出要求，计算满足特定精度要求所需要的样本量。如果调查的目的在于掌握研究对象总体的数量特征，得到总体参数的置信区间，应该使用概率抽样的方法。概率抽样的技术含量更高，无论是抽选样本还是对调查数据进行分析，都要求有较高的统计学专业知识，调查的成本比非概率抽样高。

4、搜集数据的基本方法

样本单位确定后，对这些单位实施调查，即从样本单位那里得到所需要的数据，可采用不同方法。

自填式

定义

指在没有调查员协助的情况下由被调查者自己填写，完成调查问卷。

问卷要求 & 对比

把问卷送给被调查者方法如调查员分发，邮寄，网络或把问卷刊登在网上。由于被调查者在填答问卷时调查员一般不在现场，对于问卷中的疑问无人解答，所以这种方法要求调查问卷结构严谨，有清楚的说明，让被调查者一看就知道如何完成问卷。要求被调查者具一定文化素养，可读懂问卷，正确理解调查问卷中的问题并进行回答。
与其他调查方式比，自填式问卷应有制作详细、形象友好的说明，必要时可在问卷上提供调查人员的联系电话，以便被调查者遇到疑问时与调查员联络。与其他搜集数据方式相比，调查组织者对自填式方式的管理相对容易，只要把问卷正确地送到被调查者手中即可。

优点

成本低，增大样本量对调查费用的影响很小，可进行大范围调查。利于被调查者，他们可以选择方便的时间填答问卷，可参考有关记录而不必依靠记忆进行回答。
由于填写问卷时调查员不在场，因而自填式方法可以在一定程度上减少被调查者回答敏感问题的压力。

缺点

问卷的回收率比较低，被调查者不够重视，在完成问卷方面没有压力，所以放弃不答。由于不重视，被调查者易把问卷丢失和遗忘，所以需要做很多跟踪回访工作取得较高的回收率。
不适合结构复杂的问卷，许多被调查者不会认真阅读填写问卷指南。对调查内容有所局限。
调查周期比较长，调查人员需要对问卷的递送和回收方法进行仔细研究和选择
对于数据搜集过程中出现的问题，一般难以及时采取调改措施

面访式

定义

是指现场调查中调查员与被调查者面对面，调查员提问、被调查者回答这种调查方式。

优点

由于是面对面交流，调查员可以激发被调查者的参与意识，对不愿意参与的被访者进行说服工作，提高调查的回答率。
调查员可在现场解释问卷，回答被调查者的问题，对被调查者的回答进行鉴别和澄清，提高调查数据的质量，且可以对识字率低的群体实施调查。
由于调查问卷是由经过培训的调查员所控制，在问卷设计中可采用更多的技术手段，使得调查问题的组合更为科学、合理。
在面访调查中，可借助其他调查工具（图片、照片、卡片、实物等）以丰富调查内容。
能对数据搜集所花费的时间进行调节，如果数据搜集进展太慢，需要加快速度，就可雇更多的调查员，但使用自填式方式时是不可能的。

弱点

调查的成本较高，要有调查员的培训费用、调查员的工资、面访调查中送给被调查者的小礼品和调查员的交通费用等，且调查费用与样本量关系十分密切。在大样本调查中，研究人员面临着调查成本的巨大压力。
面访这种搜集数据的方式在对调查过程的质量控制方面有一定难度，调查的数据质量与调查员的工作态度、责任心有直接关系，当大量调查员参与调查时，如何保证高质量的现场操作是一个重要问题。
对于敏感问题，除非对调查员进行角色筛选，对调查员的访谈技巧进行专门的技术培训，否则，在面对面的条件下，被调查者通常不会像在自填式方法下那样放松

电话式

定义

是指调查人员通过打电话的方式向被调查者实施调查。

特点

速度快，能够在最短的时间内完成调查，适合样本单位十分分散的情况，由于不需要支付调查员的交通费，数据搜集的成本不大。
对调查员也是安全的，他们不必在晚上走访偏僻的居民区，在面访调查中，这些不可避免的
对访问过程的控制比较容易，因为调查员的工作地点都是在一起，调查中遇到的问题可得到及时处理和解决，调查监督对访问实施监听也容易。计算机辅助电话调查（CATI）

局限性

电话调查的工具是电话，如果被调查者没有电话，调查将无法实施，所以在电话拥有率不高的地方，电话调查收到限制
使用电话进行访问的时间不能太长，人们不愿意通过电话进行冗长的交谈，被访者对调查的内容不感兴趣时更是如此。
电话调查所使用的问卷要简单，如果问卷答案的选项过长、过多，被调查者听了后面，忘记前面，不仅造成调查进度的延缓，被调查者容易挂断电话。
与面访相比，电话调查由于不是面对面的交流，在被访者不愿意接受调查时，要说服他们更为困难

观察式

定义

调查人员通过直接观测方法获取信息，如利用安置在超市中的录像设备观察顾客挑选商品时的表情，在十字路口通过计数方法估计车流量

数据搜集方法的选择：搜集数据的不同方法各有特点，选择方法时，需要考虑几点

1、抽样框中的有关信息

如果抽样框中没有同学地址，就不能将自填式问卷寄给被调查者；如果没有计算机随机数字拨号系统，有没有电话号码的抽样框，电话调查的概率样本就难以产生，电话访问方式无法使用

2、目标总体的特征

如果总体的识字率很低，对问卷的理解有困难，就不宜使用自填式方法。样本的地理分布也很重要，如果样本单位分布很广，地域跨度大，进行面访调查的交通费用就会很高，且调查过程的管理和质量监控实施起来不容易。

3、调查问题的内容

对于比较复杂的问题，面访调查比较适合，因为调查员可以在现场对模糊的问题进行解释和澄清，并判断被访者对问题是否真正理解，调查问卷的设计也可以采用更多技术，如跳答、转答等，使搜集的数据满足研究的要求。如果调查的问题涉及一些敏感问题，使用匿名的数据搜集方法，如自填式或电话调查可能更适合。

4、有形辅助物的使用

对调查是有帮助和必要的。在调查期间显示产品、产品样本、广告等，在一些市场调查中，有时需要被调查者试用产品，然后接受调查。在这些情况下，面访是最合适的方法。采用邮寄问卷的自填式调查方法也可以有一些效果，因为可以随问卷同时邮寄有关调查内容的图片，但电话调查对有形辅助物的使用就受到限制。

5、实施调查的资源

这些资源包括经费预算、人员、调查设备和调查所需时间。面访调查费用最高，需要支付调查员的劳务费、调查交通费、被访者的礼品费等，还要找到能够满足调查需要的一定数量的调查员。如果使用计算机辅助电话调查，就需要有计算机设备和CATI操作系统。

6、管理与控制

在电话调查中，调查员通常集中在调查中心一起工作，因此，管理和控制相对简单。面访调查中调查员是分散、独立地进行工作，对他们的管理与控制有一定难度。

7、质量要求

如果调查员是经过考核选拨进来的，有较好的素质和责任心，并经过专门的培训，这时面访调查就能够有效地减少被访者的回答误差。如，对于调查中所使用的概念，调查员能够给出清晰无误的解释；有经验的调查员还可对被访者回答的真实性做出判断，并使用调查询问中的相关技术进行澄清，以保证高质量数据。回答率也是影响数据质量一个因素，由于面访具有面对面交流的有利条件，所以面访式回答率最高，而自填式回答率低。但面访式调查成本最高，自填式调查成本最低。

搜集数据不同方法的特点
项目	自填式	面访式	电话式
调查时间	慢	中等	快
调查费用	低	高	低
问卷难度	要求容易	高	低
有形辅助物的使用	中等利用	充分利用	无法利用
调查过程控制	简单	复杂	容易
调查员作用的发挥	无法发挥	充分发挥	一般发挥
回答率	最低	较高	一般

在数据搜集使用方法的选择中要根据调查所需信息的性质、调查对象的特点、对数据质量和回答率的要求，以及预算费用和时间要求等多方面因素综合而定。如对被选中的调查单位首先采用邮寄问卷，让受访者自填的方式，对没有返回问卷的受访者，再进行电话追访或面访。

三、实验数据（experiment data）

定义：是指在实验中控制实验对象而搜集到的变量的数据，在实验中控制一个或多个变量，在有控制的条件下得到观测结果。实验是检验变量间因果关系的一种方法。在实验中，研究人员要控制某一情形的所有相关方面，操纵少数感兴趣的变量，然后观察实验结果。

1、实验组和对照组

实验法基本逻辑：有意识地改变某个变量的情况（A），然后看另一个变量变化情况（B）。如果B随着A的变化而变化，说明A对B有影响。需要将研究对象分为两组，一组实验组，一组对照组。
实验组（experiment group）:指随机抽选的实验对象的子集。在这个子集中，每个单位接受某种特别的处理。
对照组（control group）：每个单位不接受实验组成员所接受的某种特别处理。
一个好的实验设计都有一个实验组和一个或多个对照组。
一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。匹配，是指对实验单位的背景材料进行分析比较，将情况类似的每对单位分别随机地分配到实验组和对照组。
双盲法在实验设计中应采用。

2、实验中的若干问题

人的意愿	在划分实验组和对照组时，应该采用随机原则，但研究对象是人，就不好控制
心理问题	在实验研究中，人们对被研究非常敏感，使得他们更加注意自我，从而走向极端
道德问题	道德问题使得对人和动物做的实验复杂化了。当某种实验设计道德问题，人们会处于进退两难的尴尬境地。

3、实验中的统计

统计在实验中的作用：确定进行实验所需要的单位个数，以保证实验可以达到统计显著的结果；将统计的思想融入实验设计，使实验设计符合统计分析的标准；提供尽可能最有效地同时研究几个变量影响的方法。

通过实验得到的数据称为实验数据，实验数据可以作为研究者判断假设的依据。

4、数据的误差

（1）定义：是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据误差分为两类：抽样误差和非抽样误差。

抽样误差（sampling error）

定义：是由抽样的随机性引起的样本结果与总体真值之间的误差。
在概率抽样中，依据随机原则抽取样本，可能抽中由这样一些单位组成的样本，也可能抽中由另外一些单位组成的样本。根据不同的样本，可以得到不同的观测结果。但总体真实结果只能有一个，尽管这个真实值我们不知道。不过可以推测，虽然不同的样本会带来不同的答案，但这些不同的答案应该总在真值附近。如果不断增大样本量，不同的答案也会向总体真值逼近。
抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的，抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。
抽样误差的大小与多方面因素有关。样本量的大小，样本量越大，抽样误差越小。当样本量大到与总体单位相同时，抽样调查变成普查，误差减小到0，这时不存在样本选择的随机性问题。
还与总体的变异性有关。总体的变异性越大，即各单位之间的差异越大，抽样误差越大，因为有可能抽中特别大或特别小的样本单位，使样本结果偏大或偏小；总体的变异度越小，各单位之间越相似，抽样误差越小。如果所有单位完全一样，调查一个就可以精确无误地推断总体，抽样误差就不存在。

非抽样误差（non-sampling error）

定义：是相对抽样误差而言的，是指抽样误差之外的，由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差，只是存在于概率抽样中；非抽样误差则不同，无论是概率抽样、非概率抽样或是全面调查中，都有可能产生非抽样误差。

非抽样误差类型
抽样框误差	在概率抽样中需要根据抽样框抽取样本。抽样框是有关总体全部单位的名录，在地域抽样中，抽样框可以是地图。一个好的抽样框应该是，抽样框中的单位和研究总体的单位有一一对应的关系。
回答误差	是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种，主要有理解误差、记忆误差和有意识误差。
无回答误差	是指被调查者拒绝接受调查，调查人员得到的是一份空白答卷。无回答也包括那些调查进行时被访者不在家的情况。电话调查中，拨通后没有人接；邮寄问卷调查中，地址写错，被调查者搬家，或者被调查者虽然受到问卷，却把问卷遗失或丢失，这些都可视为调查中的无回答。无回答误差有时是随机的，有时是系统性的。如果无回答的产生与调查的内容无关，如邮寄问卷的丢失，调查时被访者正在生病，无法接受调查，在随机状态下，被访者如果回答，其结果可能高于平均值，也可能低于平均值，高低互相抵消，不会产生有偏估计。但当无回答的产生与调查内容有关时，就可能产生系统性误差。如调查收入时的拒绝回答者通常是收入比较高的人群，仅仅用收入低的回答结果进行推算，偏差就不可避免。无回答误差是随机的，可通过增大样本量。多次回访。无回答系统性误差解决途径：预防，在调查前做好各方面的准备工作，尽量把无回答降到最低程度；当无回答出现后，分析无回答产生的原因，采用一些补救措施。如在无回答单位中再抽取一个样本，实施更有力的调查，并以此作为无回答层的代表。
调查员误差	指由于调查员的原因而产生的调查误差。
测量误差	如果调查与测量工具有关，很有可能产生测量误差。

（2）误差的控制

抽样误差是由抽样的随机性带来的，只要采用概率抽样，抽样误差就不可避免。抽样误差是可以计算的。在一个特定问题的研究中，研究人员对抽样误差有一个可以容忍的限度。允许的抽样误差是多大，取决于对数据精度的要求。一旦误差确定下来，就可采用相应措施进行控制。进行控制的主要方法是改变样本量。要求的抽样误差越小，所需要的样本量就越大。

非抽样误差与抽取样本的随机性无关，因而在概率抽样和非概率抽样中都会存在（但抽样框误差仅在概率抽样中存在）。很多原因会造成非抽样误差。做好问卷设计是减少非抽样误差的一个方法。非抽样误差的控制主要是在调查过程的质量控制。包括：调查员的挑选，调查员的培训，督导员的调查专业水平，对调查过程进行控制的具体措施，对调查结果进行的检验、评估，对现场调查人员进行奖惩的制度。目前在规范的专业性市场调查咨询公司，都有一些进行质量控制的规章制度和经验。