1.假设检验学习笔记

1.1基本原理

根据样本信息与已知信息,对一个描述总体性质的命题进行“是或否”的检验与回答

1.2假设检验的推导

step1:建立原假设和备择假设

step2:确定显著性水平,临界值,拒绝御

step3:构造检验统计量

step4:代入数据,输出对应分布的分位点,计算临界值(拒绝域),做出判断

1.3两类错误

1.3.1第一类错误:原假设H0为真,但是数据却落入了拒绝域(因此做出拒绝H0的判断)。 犯第一类错误的概率被称为拒真概率α。

第二类错误:原假设H0为假,但是数据却没有落入拒绝域(因此做出接受H0的判断)。 犯第二类错误的概率被称为受伪概率β。

1.4显著性水平

在定夺临界值的时候,我们要保证发生第一类错误的概率α需要在一个给定的、较小的水平(通常取α=0.05/0.1),此时α又被称为显著性水平。 

1.5 p值

p值是在确定的样本观测值下,给出的能拒绝原假设的最小显著性水平,它只与样本观测值和我们做的假设检验有关。 p值越小越可以拒绝原假设,例如:如果p值为0.001,比0.01的置信水平还要小,我们认为在0.01的置信水平下我们也可以拒绝原假设;而如果p值为0.025,比0.01的置信水平要大,但小于0.05,则我们认为在0.05的置信水平下我们可以拒绝原假设,但在0.01置信水平下不可以拒绝。

p值的形式与我们做的备择假设H1有关:

· 若H1的符号为≠,则:𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(|𝑋|>|𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠|)

· 若H1的符号为>,则:𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(𝑋>𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠)

· 若H1的符号为<,则:𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(𝑋<𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠)

2.1正态性检验

H0:样本所在分布服从正态分布

H1:样本所在分布不服从正态分布

Shapiro-Wilk检验——小样本正态性检验

样本量适用范围:样本量不得小于8,小于50最佳,小于2000效果较好,超过5000后不再适用。

· D'Agostino's K-squared test——大样本正态性检验

样本量适用范围:样本量不得小于4,除此以外越大越好。

2.2均值检验

2.2.1 单组样本均值假定的检验

检验一个样本所在总体的均值是否和一个参考值相等,这就是单组样本均值假定的检验。

常见方法:t检验wilcoxon符号秩和检验

t检验:数据符合正态分布时可以使用,构造t检验统计量,计算P值,进行判断

wilcoxon符号秩和检验:一种非参数检验方法,数据不符合正态分布时,将数据从大到小进行排列,引入秩和统计量,进行假设检验判断

2.2.2 两组样本的均值相等性检验

step1:独立性检验(抽样意义上的独立,即一个样本的受试不影响另一个样本的受试)

step2:双样本t检验/Mannwhitneyu秩和检验
 

2.2.3成对检验

两个样本分别为同一个受试个体不同时间的受试结果。例如一组同学前后两次的考试成绩。若总体服从正态分布,则使用成对t检验;若总体不服从正态分布,则使用成对wilcoxon秩和检验

2.2.4方差分析

因素:区分不同组别的依据

水平:对于单因素方差分析而言,进行比较的样本个数。

单因素方差分析思想:观察各个样本之间的均值差异,从而判断单一因素对总体的影响

原理解析:定义组内偏差和组间偏差,计算总的“差异程度”。

总偏差平方和𝑆𝑇:

组内偏差平方和𝑆𝑒:

组间偏差平方和𝑆𝐴:

将Se和SA除以自由度统一量纲,构造F检验统计量,进行假设检验

作业:

1.

数据量为13的甲数据集正态性假设检验的结果 : ----------------
Omnibus         0.487527
Shapiro-Wilk    0.717019
dtype: float64

 

因为Shapiro-Wilk test不显著(p>0.01),所以甲数据集是正态分布。

2.

数据量为14的数据集正态性假设检验的结果 : ----------------
Omnibus         0.127615
Shapiro-Wilk    0.111537
dtype: float64

 因为Shapiro-Wilk test不显著(p>0.01),所以乙数据集是正态分布。

2.

由excel数据分析可得

F-检验 双样本方差分析
 变量 1变量 2
平均14.9846214.93571
方差0.2647440.285549
观测值1314
df1213
F0.927137
P(F<=f) 单尾0.450945
F 单尾临界0.243911 

由P>0.2>0.01,接受原假设,甲乙两样本方差无显著性差异。

3.

在显著性水平0.01下,不能拒绝两组样本方差相等的假设(p=0.8656),因此需要使用方差相等的t检验
------------------------------------
t检验p值:0.811
Mann-Whitney检验p值:0.769
------------------------------------
两组样本均值的散点图可视化

 因为t检验的p值大于0.01,所以两种产品的直径没有显著性差异。

4.对样本丙进行正态性检验,样本丙未通过正态性检验,不符合正态分布。

数据量为17的丙的数据集正态性假设检验的结果 : ----------------
Omnibus         9.796679e-08
Shapiro-Wilk    3.649597e-05
dtype: float64

 因此,对甲乙丙三组数据进行kruskalwallis检验。

结果为:

若样本不服从正态分布,单因素方差分析的p值为0.8624406173813932

Out[22]:

levene                    0.221198
anova_oneway_notnormal    0.862441
dtype: float64

检验在0.01的显著性水平下显著,3组产品的直径均值相等,不存在显著性差异,本题的因素是车床品牌

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值