统计数据的分类
-
按计量尺度:分类数据、顺序数据、数值数据
分类数据:数据之间有属性分类,类型之间为平级关系,例如:男女
顺序数据:数据之间有等级关系,等级之前有优先级关系,例如:优良差
数值数据:按照数据的尺度度量的数据,表现形式为有具体的数据值。例如:134 - 按时间状态:时间序列数据、截面数据
时间序列数据:在某一时间段得到的数据值。如一年内的降雨量变化
截面数据:在相同或近似时间点上取得的数据值。
- 按收集方式:观测数据、实验数据
观测数据:通过调查或收集得到的数据。
实验数据:在实验中,通过控制实验变量得到的数据。
变量分类
- 分类变量
- 顺序变量
- 数值型变量
--离散变量:只能取有限个值,取值以整数位断开。如10,23,25,30
--连续变量:可以取区间内的任意值,取值连续不断。如体重,温度
统计中常用的基本概念
总体:所研究的数据个体(数据)的集合。
个体:构成总体的每个元素。
样本:从总体中抽取的一部分。
样本量:样本元素的个数。
参数:用来描述总体特征的数据度量值。
统计量:用来描述样本特征的数据度量值。
数据的误差
- 抽样误差
由于抽样的随机性引起的样本结果与总体真值之间的误差。用来描述所有样本可能的结果与总体真值的平均性差异。
影响误差大小的因素:1.抽样单位的数量。抽样单位越多,误差越小
2.总体变异性。
3.抽样方法。重复抽样和不重复抽样的误差不用,不重复抽样的误差更小。
4.抽样的组织方式。 - 非抽样误差
其他因素引起的样本结果与总体真值之间的差异。
影响误差大小的因素:1.抽样框误差。注意抽样框的单位与总体单位是一一对应关系。
2.被调查者回答误差。(好问卷,缩短调查事件,保密性)
3.无回答误差。空白调查等(增大样本量,分析无回答的原因)
4.调查员误差。
常见抽样方法
概率抽样:
简单随机抽样:从总体N个单位中随机、一个一个的抽取n个单位做样本,每个单位被抽取的概率相同。例如调查学校食堂的饭菜是否可口,随机抽取100个学生进行调查。
分层抽样:将抽样单位按某种特征或规则划分为不同的层,从不同的层中随机、独立的抽取样本。例如调查不同工种的职员工资情况,从不同工种中随机、独立的抽取样本。
系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,按规定好的规则确定其他样本单位。例如对全校学生购书费用进行查询,将学生按照姓名首字母排序,每间隔50人抽取一位学生进行调查。
整群抽样:将总体中若干个单位合并为组,成为群;抽样时直接抽取群,然后对中选群的所有单位进行调查,该方法样本分布不均匀。例如对学生每月消费进行查询,从全校抽取八个班进行调查。总体是全校学生,各班级的学生构成群。
多阶段抽样:类似整群抽样,抽取群,但不是群内的所有单位,需要对群内成员再次抽样。
非概率抽样:
方便抽样:由调查员依据方便原则,自行确定样本单位。例如商店门口拦截式调查。
判断抽样:研究人员根据经验、判断、有目的的选择一些单位做样本。主观意识浓重。
1.重点抽样:从调查对象的全部单位中,选择少数重点单位进行调查。例如:查询水泥生产质量情况,选取该地区水泥总产量占比80%的五大水泥厂进行调查。
2.典型抽样:选取若干个典型单位深入调研。
3.代表抽样:选取若干个代表性单位抽样调研。
滚雪球抽样:用于稀少群体调研,选择一组调查对象,请他们提供一些属于总体的调查对象,继续调查。
配额抽样:类似分层抽样,将整体按照一定标志分为若干类,在类中采用方便抽样或判断抽样选择样本单位。
概率抽样与非概率抽样对比
概率抽样:随机原则抽取样本,可以根据调查结果评估总体有关参数,计算估计误差,得到置信区间。调查成本和技术含量高。适用于对精度要求高,如调查不同年龄段的消费水平。
非概率抽样:不遵循随机抽样,统计量分布不明确,但是操作简单,时效快,成本低,技术要求低。适用于广告测试,产品包装测试,不需要将结果反应到总体的情况下使用。
对比:概率抽样依据随机原则抽取样本,样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的参数进行估算。而非概率抽样,并未遵循随机抽样原则,样本统计量的分布不确切,无法因此推算总体参数值。
整群抽样与分层抽样对比
相同点:
都需要事先对总体进行划分。
不同点:
整群抽样的划分标志不一定和调查标志有关,分层抽样的划分标志和调查标志有密切关系。
分层抽样在每层随机抽样,整群抽样在全部群体中随机抽取一部分群体。
分层抽样的误差取决于各层总体方差的平均数,整群抽样取决于总体的群间方差。
分层抽样缩小抽样误差,整群抽样扩大抽样单位,简化抽样组织工作。