第四章、描述性统计分析(1)
一、统计学研究思路
收集数据--处理数据--分析数据--解释数据
1、收集数据:
直接来源(一手数据):调查、实验
间接来源(二手数据)
2、分析数据的方法
(1)基础的数据分析方法:
描述性统计分析方法(数据分布特征的描述性分析方法)
推断性统计分析方法(参数估计、假设验证)
参数估计:总体信息未知时,需要抽取样本来估计总体信息
假设验证:知晓总体某个信息,但无法确认信息是否正确与否,因此需要抽取样本对信息进行假设验证
(2)复杂的数据分析方法(相关分析、时间序列分析、生存分析)
3、解释数据
相关分析、主成分分析。重要的工具:图和表
二、统计学基本概念
1、总体和样本
总体是指我们所研究的所有元素的集合,其中每个元素称为个体。
我们把从总体中抽取的一部分个体的集合称为样本,样本中个体的数量称为样本容量。
需要注意的是不是所有研究都必须要有样本。
需要抽取样本来推断总体的前提是总体的个体很难一个个去研究
其次需要注意的是,由于我们是通过样本来研究总体,所以样本质量好坏会直接影响对总体的推断结果
所以,如何获取有代表性的样本是统计学研究的一个重要问题,这涉及抽样理论相关内容。
大数据研究依旧需要样本。
首先大数据在某种意义上只是样本数据,不是总体数据。
其次数据量巨大的大数据,对数据系统和计算机计算能力都是非常巨大的考验,会带来计算效率低下的问题
2、参数和统计量
参数是指总体的某个特征
统计量是指样本的某个特征
参数对应总体,统计量对应样本
用样本的统计量来推断总体的参数
意思就是用样本的某个特征来推断总体的某个特征
总体特征:秘鲁、均值、方差(标准差)、个体数量(容量)、标准差系数
样本的目的是推断总体,因此总体有的特征,样本也对应有
3、变量和数据
变量用来描述个体特征的概念
不同个体的变量有不同的取值,其取值我们称为数据
数据是统计学研究的对象,也是数据分析师工作的对象
4、数据的分类
(1)数据按表达形式来分
定性数据和定量数据
定性数据从表现形式上看,长表现为文字形式,而数字来表现的数据则称为定量数据
【能运算的称为数字,不能运算的称为文字】
定性数据分为:分类数据和顺序数据
分类数据只是事物分类的结果,而顺序数据则是可以排序的分类结果
定量数据(数值数据)分为:定距数据和定比数据
定距数据通常不能做除法运算
定比数据:0可以表示没有的数据称为定比数据,比如收入
分类数据(最低级数据)、顺序数据(稍微高级)、数值数据(最高级数据)
低级数据的方法,高级数据可以用;但高级数据的风法,低级数据不可以用
工作中应该尽可能多收集高级数据
(2)数据按收集方式来划分
调查数据和实验数据(区别方法通过是否对数据对象进行干预来判断)
(3)数据按照与时间关系的不同来划分
横截面数据、时间序列数据、混合横截面数据和面板数据
横截面数据:是指在相同或相近时间点观测大的不同对象的数据
时间序列数据:是指同一对象在不同时间(通常是一个连续的有固定频率的时间序列)上相继观测收集到的数据
面板数据:是不同对象在同一序列时间上收集到的数据
【对于这种类型的数据,如果把同一个时间的所有数据抽取出来就是一个横截面数据,如果把某个个体不同时间的数据抽取出来就是一个时间序列数据。】
即可以把这种数据看作时横截面数据和时间序列数据的混合,也有 人称这种数据为混合数据。
混合横截面数据:有些数据既有横截面数据的特点又有时间序列数据的特点,但每一时间的样本不同,这种数据称为混合横截面数据。