《统计学》第7版

adamlay

于 2021-03-04 14:06:32 发布

阅读量5k

点赞数 3

本文链接：https://blog.csdn.net/adamlay/article/details/114367037

版权

《统计学》

1. 导论
2. 数据的搜集
3.数据的图表显示
4. 数据的概括性度量
5. 概率分布
- 5.1 随机事件及其概率
- - 5.1.1 随机事件的几个概念

1. 导论

1.1 统计及其应用领域

什么是统计学？

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学

统计学方法

描述统计
研究的是数据收集、处理、汇总、图表描述、概况i与分析等统计方法
推断统计
研究如何利用样本数据来推断总体特征的统计方法

统计的应用领域

企业发展战略
产品质量管理
市场研究
财务分析
经济预测
人力资源管理

1.2 统计数据的类型

在这里插入图片描述

1.2.1 分类数据、顺序数据、数值型数据

数据分类	数据类型	数据	举例
定性数据或品质数据	分类数据	非数字型数据	性别
定性数据或品质数据	顺序数据	非数字型数据	服务满意度
定量数据或数量数据	数值型数据	数字型数据	温度等

1.2.2 观测数据、实验数据

观测数据

通过调查或观测收集到的数据，是在没有对事物人为控制的条件下得到的，有关社会经济现象的统计数据几乎都是观测数据

实验数据

在实验中控制实验对象收集到的数据，自然科学领域大多数数据都为实验数据

1.2.3 截面数据、时间序列数据

数据类型	数据来源	作用	举例
截面数据	在相同或近似的时间点上收集的数据	描述现象某一时刻的变换情况	2020年GDP
时间序列数据	在不同时间收集到的数据，是按时间顺序收集到的	描述现象随时间变化的情况	2010-2020年GDP

1.3 统计中的几个基本概念

1.3.1 总体和样本

当总体的范围难以确定时，可根据研究的目的来定义总体

总体	区别
有限总体	范围能够明确确定，元素是有限可数的
无限总体	包括的元素是无限的，不可数的

抽样的目的：根据样本提供的信息推断总体的特征

1.3.2 参数和统计量

	作用	已知/未知	常用	表示
参数	描述总体特征	未知	总体平均数、标准差、比例等	希腊字母表示（μ、σ、π）
统计量	描述样本特征	已知	样本平均值、标准差、比例等	英文字母表示（x、s、p）

在这里插入图片描述

1.3.3 变量

说明现象某种特征的概念，特点是从一次观察到下一次观察结果会呈现出差别或变化

变量	取值	举例
分类变量	分类数据	性别
顺序变量	顺序数据	服务满意度
数值型变量	数值型数据	温度等

数值型变量	取值	举例
离散型变量	有限个数	产品数量
连续型变量	取值连续不断	温度等

2. 数据的搜集

2.1 数据的来源

2.1.1 数据的间接来源（二手）

间接来源：原信息已经存在，只是对原信息重新加工、整理，使之成为统计分析可以使用的数据

优点：搜集比较容易，采集数据的成本低，数据采集快

缺点：有很大的局限性，因为不是特定为研究问题而产生的，所以回答该问题时有很多欠缺，图相关性不够、口径可能不一致、数据也许不准确

2.1.2 数据的直接来源（一手）

直接来源：通过调查、实验的方法直接得到的数据

调查

通常是针对社会现象的
通常取自有限的总体，即样本
普查：针对所有个体的调查，不经常进行

实验

大多是针对自然现象的

2.2 调查方法

一个好的样本应具有最好的性能价格比，即在相同调查费用的条件下，获得数据的估计精度最高，或在相同估计精度的条件下，调查成本最低

2.2.1 概率抽样和非概率抽样

概率抽样

也称随机抽样，指遵循随机原则进行的抽样，总体中每一个单位都有一定的机会被选入样本。

特点：

抽样时按一定的概率以随机原则抽取样本；
随即不等于随便，随即与随便的本质区别在于，是否按照给定的入样概率，通过一定的随机化程序抽取样本单元
每个单位被抽中的概率是已知的，或是可以计算出来的
当样本对总体进行估计时，要考虑到每个样本单位被抽中的概率

当单位之间被抽中的概率相等时，称为等概率抽样，不等时，称为不等概率抽样

概率抽样的抽样方法

简单随机抽样
较大规模的抽样调查中，很少直接采用，一般是把它和其他抽样方法结合起来使用
分层抽样
整群抽样
要得到与简单抽样相同的精度，需要增加基本调查单位
系统抽样
多阶段抽样
较大规模的抽样调查中常采用

非概率抽样

指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。

非概率抽样的抽样方法

方便抽样
判断抽样
1. 重点抽样
2. 典型抽样
3. 代表抽样
自愿抽样
滚雪球抽样
配额抽样
1. 单一变量控制
2. 交叉变量控制

概率抽样与非概率抽样区别

	概率抽样	非概率抽样
随机原则	依据	不依据
目的	通过对样本的调查结果分析，掌握研究对象总体的数量特征，得到总体参数的置信区间	适合探索性的研究，调查结果用于发现问题，为更深入的数量分析做准备；也适合市场调查中的概念测试
特点	技术含量高、成本较高，可以根据结果计算估计量误差、是统计分析的主要抽样方式	操作简单、时效快、成本低、专业技术要求不高

2.2.2 搜集数据的基本方法

方法	优点	缺点
自填式	1.成本最低，适合大范围的调查； 2.调查问卷结构严谨； 3.减少面对敏感问题的压力	1.回收率低； 2.问卷不被重视，遗失率高； 3.不适合结构复杂的问卷； 4.调查周期通常比较长； 5.难以及时采取调改措施
面访式	1.回答率高； 2.现场可以解释问卷； 3.提高调查数据的质量； 4.并且可对识字率低的群体调查； 5.可采用更多的技术手段，使结果更科学合理； 6.能对数据花费的时间进行调节	1.调查成本较高； 2.数据质量与调查员的工作态度、责任心有直接关系 3.对敏感问题，难度较大
电话式	1.速度快，特别适合样本单位十分分散的情况； 2.调查员人身安全； 3.对访问过程的控制比较容易	1.电话普及率不高的地方不合适； 2.通话时间不能太长； 3.问卷要尽可能简单； 4.无法直面交流，很难说服被访者
观察式

方法选择

抽样框中的有关信息
目标总体的特征
调查问题的内容
有形辅助的使用
实施调查的资源
管理与控制
质量要求

三种主要方式的特点

项目	自填式	面访式	电话式
调查时间	慢	中等	快
调查费用	低	高	低
问卷难度	要求容易	可以复杂	要求容易
有形辅助物的使用	中等利用	充分利用	无法利用
调查过程控制	简单	复杂	容易
调查员作用的发挥	无法发挥	充分发挥	一般发挥
回答率	最低	较高	一般

2.3 实验方法

实验数据是在实验中控制实验对象而搜集到的变量的数据

2.3.1 实验组和对照组

实验组：随机抽选的实验对象的子集，每个单位接受某种特别的处理
对照组：每个单位不接受实验组成员所接受的某种特别的处理

一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。

匹配：指对实验单位的背景材料进行分析比较，将情况类似的每对单位分别随机地分配到实验组和对照组

2.3.2 实验中的若干问题

人的意愿
心理问题
人们在被研究时更敏感，更加注意自我
道德问题

2.3.3 实验中统计的作用

确定实验所需要的单位的个数，以便得到关于实验精度预期的结果
进行实验设计，需要统计学知识
统计可以提供最恰当的分析方法，一个好的实验应该在两方面都有效，一个时内部的有效性，一个是外部的有效性

2.4 数据的误差

2.4.1 抽样误差

指由抽样的随机性引起的样本结果与总体真值之间的差异

抽样误差并非针对某个具体样本的检测结果与总体真实结果的差异而言的，抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。

抽样误差的影响因素

样本量的大小：样本量越大，抽样误差就越小
总体的变异性：总体的变异性越大，即各单位之间的差异越大，抽样误差也就越大

2.4.2 非抽样误差

抽样误差是一种随机性误差，只存在于概率抽样中，非抽样误差不同，无论是概率抽样、非概率抽样，还是在全面调查中，都可能存在

抽样框误差
回答误差
（1）理解误差——对调查问题的理解不同产生误差，问题的排序也可产生理解误差
（2）记忆误差
需要回忆的时间间隔越久，回忆的数据可能越不准确；缩短调查所涉及的时间间隔可以减少记忆误差
（3）有意识误差——有意识误差比记忆误差的危害要大
有意识误差产生的动因：[1]问题涉及个人隐私，[2]受利益驱动，进行数字造假
无回答误差——得到空白的答卷
（1）无回答误差有时是随机的，可以通过增加样本量来解决
（2）有时是系统性的，一方面可以预防，一方面及时采取补救措施
调查员误差
测量误差