《统计学》
1. 导论
1.1 统计及其应用领域
什么是统计学?
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学
统计学方法
- 描述统计
研究的是数据收集、处理、汇总、图表描述、概况i与分析等统计方法 - 推断统计
研究如何利用样本数据来推断总体特征的统计方法
统计的应用领域
- 企业发展战略
- 产品质量管理
- 市场研究
- 财务分析
- 经济预测
- 人力资源管理
1.2 统计数据的类型
1.2.1 分类数据、顺序数据、数值型数据
数据分类 | 数据类型 | 数据 | 举例 |
---|---|---|---|
定性数据或品质数据 | 分类数据 | 非数字型数据 | 性别 |
顺序数据 | 非数字型数据 | 服务满意度 | |
定量数据或数量数据 | 数值型数据 | 数字型数据 | 温度等 |
1.2.2 观测数据、实验数据
- 观测数据
通过调查或观测收集到的数据,是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据
- 实验数据
在实验中控制实验对象收集到的数据,自然科学领域大多数数据都为实验数据
1.2.3 截面数据、时间序列数据
数据类型 | 数据来源 | 作用 | 举例 |
---|---|---|---|
截面数据 | 在相同或近似的时间点上收集的数据 | 描述现象某一时刻的变换情况 | 2020年GDP |
时间序列数据 | 在不同时间收集到的数据,是按时间顺序收集到的 | 描述现象随时间变化的情况 | 2010-2020年GDP |
1.3 统计中的几个基本概念
1.3.1 总体和样本
当总体的范围难以确定时,可根据研究的目的来定义总体
总体 | 区别 |
---|---|
有限总体 | 范围能够明确确定,元素是有限可数的 |
无限总体 | 包括的元素是无限的,不可数的 |
抽样的目的:根据样本提供的信息推断总体的特征
1.3.2 参数和统计量
作用 | 已知/未知 | 常用 | 表示 | |
---|---|---|---|---|
参数 | 描述总体特征 | 未知 | 总体平均数、标准差、比例等 | 希腊字母表示(μ、σ、π) |
统计量 | 描述样本特征 | 已知 | 样本平均值、标准差、比例等 | 英文字母表示(x、s、p) |
1.3.3 变量
说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化
变量 | 取值 | 举例 |
---|---|---|
分类变量 | 分类数据 | 性别 |
顺序变量 | 顺序数据 | 服务满意度 |
数值型变量 | 数值型数据 | 温度等 |
数值型变量 | 取值 | 举例 |
---|---|---|
离散型变量 | 有限个数 | 产品数量 |
连续型变量 | 取值连续不断 | 温度等 |
2. 数据的搜集
2.1 数据的来源
2.1.1 数据的间接来源(二手)
间接来源:原信息已经存在,只是对原信息重新加工、整理,使之成为统计分析可以使用的数据
优点:搜集比较容易,采集数据的成本低,数据采集快
缺点:有很大的局限性,因为不是特定为研究问题而产生的,所以回答该问题时有很多欠缺,图相关性不够、口径可能不一致、数据也许不准确
2.1.2 数据的直接来源(一手)
直接来源:通过调查、实验的方法直接得到的数据
- 调查
- 通常是针对社会现象的
- 通常取自有限的总体,即样本
- 普查:针对所有个体的调查,不经常进行
- 实验
- 大多是针对自然现象的
2.2 调查方法
一个好的样本应具有最好的性能价格比,即在相同调查费用的条件下,获得数据的估计精度最高,或在相同估计精度的条件下,调查成本最低
2.2.1 概率抽样和非概率抽样
概率抽样
也称随机抽样,指遵循随机原则进行的抽样,总体中每一个单位都有一定的机会被选入样本。
特点:
- 抽样时按一定的概率以随机原则抽取样本;
随即不等于随便,随即与随便的本质区别在于,是否按照给定的入样概率,通过一定的随机化程序抽取样本单元 - 每个单位被抽中的概率是已知的,或是可以计算出来的
- 当样本对总体进行估计时,要考虑到每个样本单位被抽中的概率
当单位之间被抽中的概率相等时,称为等概率抽样,不等时,称为不等概率抽样
概率抽样的抽样方法
- 简单随机抽样
较大规模的抽样调查中,很少直接采用,一般是把它和其他抽样方法结合起来使用 - 分层抽样
- 整群抽样
要得到与简单抽样相同的精度,需要增加基本调查单位 - 系统抽样
- 多阶段抽样
较大规模的抽样调查中常采用
非概率抽样
指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样的抽样方法
- 方便抽样
- 判断抽样
- 重点抽样
- 典型抽样
- 代表抽样
- 自愿抽样
- 滚雪球抽样
- 配额抽样
- 单一变量控制
- 交叉变量控制
概率抽样与非概率抽样区别
概率抽样 | 非概率抽样 | |
---|---|---|
随机原则 | 依据 | 不依据 |
目的 | 通过对样本的调查结果分析,掌握研究对象总体的数量特征,得到总体参数的置信区间 | 适合探索性的研究,调查结果用于发现问题,为更深入的数量分析做准备; 也适合市场调查中的概念测试 |
特点 | 技术含量高、成本较高,可以根据结果计算估计量误差、是统计分析的主要抽样方式 | 操作简单、时效快、成本低、专业技术要求不高 |
2.2.2 搜集数据的基本方法
方法 | 优点 | 缺点 |
---|---|---|
自填式 | 1.成本最低,适合大范围的调查; 2.调查问卷结构严谨; 3.减少面对敏感问题的压力 | 1.回收率低; 2.问卷不被重视,遗失率高; 3.不适合结构复杂的问卷; 4.调查周期通常比较长; 5.难以及时采取调改措施 |
面访式 | 1.回答率高; 2.现场可以解释问卷; 3.提高调查数据的质量; 4.并且可对识字率低的群体调查; 5.可采用更多的技术手段,使结果更科学合理; 6.能对数据花费的时间进行调节 | 1.调查成本较高; 2.数据质量与调查员的工作态度、责任心有直接关系 3.对敏感问题,难度较大 |
电话式 | 1.速度快,特别适合样本单位十分分散的情况; 2.调查员人身安全; 3.对访问过程的控制比较容易 | 1.电话普及率不高的地方不合适; 2.通话时间不能太长; 3.问卷要尽可能简单; 4.无法直面交流,很难说服被访者 |
观察式 |
方法选择
- 抽样框中的有关信息
- 目标总体的特征
- 调查问题的内容
- 有形辅助的使用
- 实施调查的资源
- 管理与控制
- 质量要求
三种主要方式的特点
项目 | 自填式 | 面访式 | 电话式 |
---|---|---|---|
调查时间 | 慢 | 中等 | 快 |
调查费用 | 低 | 高 | 低 |
问卷难度 | 要求容易 | 可以复杂 | 要求容易 |
有形辅助物的使用 | 中等利用 | 充分利用 | 无法利用 |
调查过程控制 | 简单 | 复杂 | 容易 |
调查员作用的发挥 | 无法发挥 | 充分发挥 | 一般发挥 |
回答率 | 最低 | 较高 | 一般 |
2.3 实验方法
实验数据是在实验中控制实验对象而搜集到的变量的数据
2.3.1 实验组和对照组
实验组:随机抽选的实验对象的子集,每个单位接受某种特别的处理
对照组:每个单位不接受实验组成员所接受的某种特别的处理
一个好的实验,对照组和实验组的产生不仅应该是随机的,而且应该是匹配的。
匹配:指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组
2.3.2 实验中的若干问题
- 人的意愿
- 心理问题
人们在被研究时更敏感,更加注意自我 - 道德问题
2.3.3 实验中统计的作用
- 确定实验所需要的单位的个数,以便得到关于实验精度预期的结果
- 进行实验设计,需要统计学知识
- 统计可以提供最恰当的分析方法,一个好的实验应该在两方面都有效,一个时内部的有效性,一个是外部的有效性
2.4 数据的误差
2.4.1 抽样误差
指由抽样的随机性引起的样本结果与总体真值之间的差异
抽样误差并非针对某个具体样本的检测结果与总体真实结果的差异而言的,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。
抽样误差的影响因素
- 样本量的大小:样本量越大,抽样误差就越小
- 总体的变异性:总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大
2.4.2 非抽样误差
抽样误差是一种随机性误差,只存在于概率抽样中,非抽样误差不同,无论是概率抽样、非概率抽样,还是在全面调查中,都可能存在
- 抽样框误差
- 回答误差
(1)理解误差——对调查问题的理解不同产生误差,问题的排序也可产生理解误差
(2)记忆误差
需要回忆的时间间隔越久,回忆的数据可能越不准确;缩短调查所涉及的时间间隔可以减少记忆误差
(3)有意识误差——有意识误差比记忆误差的危害要大
有意识误差产生的动因:[1]问题涉及个人隐私,[2]受利益驱动,进行数字造假 - 无回答误差——得到空白的答卷
(1)无回答误差有时是随机的,可以通过增加样本量来解决
(2)有时是系统性的,一方面可以预防,一方面及时采取补救措施 - 调查员误差
- 测量误差
2.4.3 误差的控制
抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。
但抽样误差是可以计算的,一般研究对抽样误差都有一个可以容忍的限度。
允许的抽样误差大小,取决于对数据精度的要求,要求的误差越小,所需的样本量就越大。
非抽样误差与抽取样本的随机性无关,在概率抽样和非概率抽样中都会产生
3.数据的图表显示
3.1 数据的预处理
3.1.1 数据审核
- 原始数据
- 完整性审核——检查是否有遗漏,调查项目是否齐全
- 准确性审核——是否有错误,是否存在异常值
- 二手数据
- 适用性
- 实效性
3.1.2 数据筛选
使用Excel中的【高级筛选】命令可设定多项筛选条件
3.1.3 数据排序
某些场合,排序本身就是分析的目的之一
3.1.4 数据透视表
3.2 品质数据的整理与展示
对品质数据主要是做分类整理,对数值型数据则主要做分组整理
3.2.1 分类数据的整理与图示
频率与频数
频数:某一特定类别或组中的数据个数
频数分布:各个类别及落在其中的相应频数全部列出,并用表格方式表现出来
由两个或以上的变量交叉分类的频数分布表也称为列联表
比例:样本中各个部分数据与全部数据之比
比率:不同类别数据之间的比值
1.条形图
纵置时也称为柱形图
2.帕累托图
按各类别数据出现的频数多少排序后绘制的条形图
3.饼图
4. 环形图
3.2.2 排序数据的整理与图示
1.累积频数
向上累积:顺序开始的方向向顺序最后一方累加
向下累积:相反
2.累积频率
3.3 数值型数据的整理与展示
3.3.1 数据分组
主要目的:观察数据的分布特征
单变量值分组
每一个变量作为一组,通常只适合离散变量,且在变量值较少的情况下使用
组距分组
将全部变量值依次划分为若干个组,适用于连续变量或变量值较多的情况下使用
具体步骤:
- 确定组数
组数的确定应以能够显示数据的分布特征和规律为目的 - 确定各组的组距
- 根据分组编制频数分布表
组距分组,需要遵循不重不漏的原则
习惯上规定上组限不在内,即a<=x<b
全部数据中的最大值和最小值与其他数据相差悬殊时,第一组和最后一组可以采取开口组
等距分组:各组的组距相等
不等距分组:各组的组距不相等
组中值:每一组中下限值与上限值中间的值
3.3.2 数值型数据的图示
1.分组数据:直方图
与条形图的差异:
- 条形图用长度表示频数多少,宽度固定;直方图高度表示频数或频率,宽度表示各组的组距
- 直方图的各矩形是连续排列,条形图的则是分开排列
- 条形图主要用于展示分类数据,而直方图主要用于展示数值型数据
2. 未分组数据:茎叶图与箱式图
- 茎叶图
反映原始数据分布的图形,由数字组成
直方图通常适用于大批量数据,茎叶图通常适用于小批量数据 - 箱式图
用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较
3. 时间序列数据:线图
时间一般绘在横轴,观测值一般绘在纵轴
一般绘成横轴略大于纵轴的长方形,长宽比例大致为10:7
4.多变量数据的图示
1.散点图
2.气泡图
用于展示三个变量之间的关系,第三个变量用气泡的大小来表示
3.雷达图
用于表示多个变量的关系,在显示或对比各变量的数值总和时十分有用,也用于研究多个样本间的相似程度
3.4 合理使用图表
3.4.1 图优性
3.4.2 统计表的设计
- 合理安排统计表的结构
- 表头一般应包括表号、总标题和表中数据的单位等内容
- 表中的上下两条横线一般用粗线,中间的其他线用细线
- 尽量少用横竖线,左右两边不封口;行标题之间通常不用横线隔开;
- 数据一般是右对齐,没有数据的单元格,一般用“—”表示,不能空白
- 必要时可在表的下方加上注释
4. 数据的概括性度量
数据分布的特征从以下三个方面进行测度和描述
4.1 集中趋势的度量
反映数据向某一中心值靠拢的程度
4.1.1 分类数据:众数
4.1.2 顺序数据:中位数和分位数
4.1.3 数值型数据:平均数
1.简单平均数
2.加权平均数
3.几何平均数
当所平均的各比率数值差别不大时,算术平均和几何平均的结果相差不大;如果各比率的数值相差较大时,二者的差别就很明显
4.1.4 众数、中位数和平均数的比较
4.2 离散程度的度量
反映数据远离某一中心值的程度
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好
4.2.1 分类数据:异众比率
4.2.2 顺序数据:四分位差
4.2.3 数值型数据
1. 极差
2. 平均差
3. 方差和标准差
对实际问题进行分析时更多地使用标准差
4. 相对位置的度量
标准分数
标准分数只是将原始数据进行了线性变换,并没有改变一个数据在该组数组中的位置
经验法则——对称分布
切比雪夫不等式——不对称分布
4.2.4 相对离散程度:离散系数
对于平均水平或计量单位不同的不同组别的变量值,不能用标准差直接比较其离散程度,而使用离散系数
4.3 偏态与峰态的度量
反映数据分布的形状
4.3.1 偏态及其测度(偏态系数)
SK=0时,对称分布;SK<0时,为正偏或右偏;SK>0时,为负偏或左偏
4.3.2 峰态及其测度(峰态系数)
K=0时,为正态分布;K>0时,为尖峰分布,数据的分布更集中;K<0时,为扁平分布,数据的分布越分散
5. 概率分布
推断统计:在搜集、整理观测样本数据的基础上,对有关总体做出推断
特点:根据随机的观测样本数据以及问题的条件和假定,对未知事物做出的以概率形式表述的推断
5.1 随机事件及其概率
5.1.1 随机事件的几个概念
试验:同一组条件下,对某事物或现象所进行的观察或实验
事件:观察或试验的结果