数据分析:数理统计基础(四)

统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。

一、基本符号表

符号含义
X X X总体(随机变量,可带分布)
X i X_i Xi样本(随机变量,可带分布,可组成统计量)
x i x_i xi样本实际观测值(实数)
μ \mu μ总体均值
π \pi π总体比例
σ \sigma σ总体标准差
σ 2 \sigma^2 σ2总体方差
X ‾ \overline X X样本均值(统计量,可带分布)
P P P样本比例(统计量,可带分布)
S S S样本标准差(统计量,可带分布)
S 2 S^2 S2样本方差(统计量,可带分布)
x ‾ \overline x x样本均值(实数,根据样本集计算而来)
p p p样本比例(实数,根据样本集计算而来)
s s s样本标准差(实数,根据样本集计算而来)
s 2 s^2 s2样本方差 (实数,根据样本集计算而来)
M o M_o Mo众数
M e M_e Me中位数
Q L Q_L QL下四分位数
Q U Q_U QU上四分位数
x ‾ \overline x x算术平均数
H H H调和平均数
G G G集合平均数
R R R极差
M d M_d Md平均差
V s V_s Vs变异系数
S k S_k Sk偏态系数
K K K峰态系数

二、数据的分类

在这里插入图片描述

  1. 区间(分组的数值型数据)仍属于数值型
  2. 不同类型数据之间往往可以进行转换(高级→低级,反之不行)
  3. 低级数据的方法高级数据可以用,但高级数据的方法低级数据不可以用

三、统计方法之 描述性分析方法

在这里插入图片描述

四、统计方法之 推断性分析方法

I、各类分布
1. 0-1分布

在这里插入图片描述

2. 二项分布

在这里插入图片描述

3. 正态分布
4. 标准正态分布
5. 卡方分布

在这里插入图片描述

6. t分布

在这里插入图片描述

7. F分布

在这里插入图片描述

8. 各分布的联系
箭头代表“可变换成”

在这里插入图片描述

9. 分布函数与分位点的联系

在这里插入图片描述

II、估计
1. 选定欲估计的总体参数

在这里插入图片描述

2. 选定总体参数对应的样本统计量

其实此处的 x ‾ , π , s 2 \overline x,\pi,s^2 xπs2都应该大写,因为它们代表的是实际样本计算值,而非样本统计量。

在这里插入图片描述

3. 确定统计量的抽样分布

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

4. 利用统计量的分布和实际样本集数据来对总体参数进行点估计或区间估计操作
点估计方法(估计总体参数的具体值):矩估计法、最大似然法和顺序估计量估计法。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

区间估计方法(估计总体参数的出现区间):置信水平( 1 − α 1-\alpha 1α)一般取90%、95%和99%。
在这里插入图片描述在这里插入图片描述在这里插入图片描述

III、假设检验
1. 选择某总体参数并对其提出假设

在这里插入图片描述在这里插入图片描述在这里插入图片描述

2. 根据总体参数确定对应的检验统计量

在这里插入图片描述在这里插入图片描述

3. 规定显著性水平值
一般取值为0.01,0.05,0.1
4. 确定检验统计量的抽样分布,并据此计算检验统计量的实际样本值

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

5. 根据原假设来判断拒绝域的位置,并利用实际样本值是否落在拒绝域(具体值查表即可)进行决策

α \alpha α临界值法:
在这里插入图片描述在这里插入图片描述在这里插入图片描述
P值法:
在这里插入图片描述在这里插入图片描述

置信区间法:无

IV. 列联分析

本质是对每个总体的比例参数是否相等进行假设检验,因此下面的每一步都可以和假设检验步骤进行对应。

1. 提出对总体比例参数的假设(一般为双侧检验)

在这里插入图片描述

2. 构造边缘分布表

在这里插入图片描述

3. 计算期望频数

在这里插入图片描述

4. 构造总体比例对应的统计量的卡方分布,并计算统计量的实际样本值

在这里插入图片描述

5. 根据拒绝域(右侧检验)来得出结论

一般默认显著性水平 α \alpha α为0.05,若 χ 2 < χ α 2 ( 自 由 度 ) \chi^2 < \chi_{\alpha}^2(自由度) χ2<χα2(),则接受原假设,否则拒绝。

7.列联分析步骤五的改进

为了填补由于样本量的不同而影响决策结果的缺陷,因此根据 ϕ \phi ϕ相关系数来得出结论。其中样本总量n指的是边缘分布表总频数。
在这里插入图片描述
在这里插入图片描述

8. 列联分析的拓展应用

在这里插入图片描述

V. 方差分析
1. 提出对总体均值参数假设(一般为双侧检验)

在这里插入图片描述

2. 分析差异

在这里插入图片描述

3. 计算均方(SSE和SSA)

在这里插入图片描述
在这里插入图片描述

4. 构造总体均值对应的统计量的F分布,并计算样本统计量值F=MSA/MSE

在这里插入图片描述
其中,k代表的是组的个数,n代表的是总样本数。

5. 根据规定的显著性水平和F分布的自由度确定拒绝域(右侧检验)查临界值,并决策
VI. 相关分析

研究的是有没有关系,关系有多大的问题。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

VII. 回归分析

研究的是关系是什么,因此在做对关系进行分析的研究中,需要先使用相关分析判断有没有关系,再考虑使用回归分析。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值