1.假设检验学习笔记

最新推荐文章于 2023-10-02 03:42:18 发布

汤姆思

最新推荐文章于 2023-10-02 03:42:18 发布

阅读量1.1k

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/asizhuzhu/article/details/126368632

版权

1.1基本原理

根据样本信息与已知信息，对一个描述总体性质的命题进行“是或否”的检验与回答

1.2假设检验的推导

step1：建立原假设和备择假设

step2：确定显著性水平，临界值，拒绝御

step3：构造检验统计量

step4：代入数据，输出对应分布的分位点,计算临界值（拒绝域),做出判断

1.3两类错误

1.3.1第一类错误：原假设H0为真，但是数据却落入了拒绝域（因此做出拒绝H0的判断)。犯第一类错误的概率被称为拒真概率α。

第二类错误：原假设H0为假，但是数据却没有落入拒绝域（因此做出接受H0的判断)。犯第二类错误的概率被称为受伪概率β。

1.4显著性水平

在定夺临界值的时候，我们要保证发生第一类错误的概率α需要在一个给定的、较小的水平(通常取α=0.05/0.1)，此时α又被称为显著性水平。

1.5 p值

p值是在确定的样本观测值下，给出的能拒绝原假设的最小显著性水平，它只与样本观测值和我们做的假设检验有关。 p值越小越可以拒绝原假设，例如：如果p值为0.001，比0.01的置信水平还要小，我们认为在0.01的置信水平下我们也可以拒绝原假设；而如果p值为0.025，比0.01的置信水平要大，但小于0.05，则我们认为在0.05的置信水平下我们可以拒绝原假设，但在0.01置信水平下不可以拒绝。

p值的形式与我们做的备择假设H1有关：

· 若H1的符号为≠，则：𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(|𝑋|>|𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠|)

· 若H1的符号为>，则：𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(𝑋>𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠)

· 若H1的符号为<，则：𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(𝑋<𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠)

2.1正态性检验

H0：样本所在分布服从正态分布

H1:样本所在分布不服从正态分布

Shapiro-Wilk检验——小样本正态性检验

样本量适用范围：样本量不得小于8，小于50最佳，小于2000效果较好，超过5000后不再适用。

· D'Agostino's K-squared test——大样本正态性检验

样本量适用范围：样本量不得小于4，除此以外越大越好。

2.2均值检验

2.2.1 单组样本均值假定的检验

检验一个样本所在总体的均值是否和一个参考值相等，这就是单组样本均值假定的检验。

常见方法：t检验和wilcoxon符号秩和检验

t检验：数据符合正态分布时可以使用，构造t检验统计量，计算P值，进行判断

wilcoxon符号秩和检验：一种非参数检验方法，数据不符合正态分布时，将数据从大到小进行排列，引入秩和统计量，进行假设检验判断

2.2.2 两组样本的均值相等性检验

step1:独立性检验（抽样意义上的独立，即一个样本的受试不影响另一个样本的受试）

step2：双样本t检验/Mannwhitneyu秩和检验

2.2.3成对检验

两个样本分别为同一个受试个体不同时间的受试结果。例如一组同学前后两次的考试成绩。若总体服从正态分布，则使用成对t检验；若总体不服从正态分布，则使用成对wilcoxon秩和检验。

2.2.4方差分析

因素：区分不同组别的依据

水平:对于单因素方差分析而言，进行比较的样本个数。

单因素方差分析思想：观察各个样本之间的均值差异，从而判断单一因素对总体的影响

原理解析：定义组内偏差和组间偏差，计算总的“差异程度”。

总偏差平方和𝑆𝑇：

组内偏差平方和𝑆𝑒：

组间偏差平方和𝑆𝐴：

将Se和SA除以自由度统一量纲，构造F检验统计量，进行假设检验

作业：

数据量为13的甲数据集正态性假设检验的结果 : ----------------
Omnibus         0.487527
Shapiro-Wilk    0.717019
dtype: float64

因为Shapiro-Wilk test不显著（p>0.01），所以甲数据集是正态分布。

数据量为14的数据集正态性假设检验的结果 : ----------------
Omnibus         0.127615
Shapiro-Wilk    0.111537
dtype: float64

因为Shapiro-Wilk test不显著（p>0.01），所以乙数据集是正态分布。

由excel数据分析可得

F-检验双样本方差分析

	变量 1	变量 2
平均	14.98462	14.93571
方差	0.264744	0.285549
观测值	13	14
df	12	13
F	0.927137
P(F<=f) 单尾	0.450945
F 单尾临界	0.243911

由P>0.2>0.01,接受原假设，甲乙两样本方差无显著性差异。

在显著性水平0.01下，不能拒绝两组样本方差相等的假设(p=0.8656)，因此需要使用方差相等的t检验
------------------------------------
t检验p值：0.811
Mann-Whitney检验p值：0.769
------------------------------------
两组样本均值的散点图可视化

因为t检验的p值大于0.01，所以两种产品的直径没有显著性差异。

4.对样本丙进行正态性检验，样本丙未通过正态性检验，不符合正态分布。

数据量为17的丙的数据集正态性假设检验的结果 : ----------------
Omnibus         9.796679e-08
Shapiro-Wilk    3.649597e-05
dtype: float64

因此，对甲乙丙三组数据进行kruskalwallis检验。

结果为:

若样本不服从正态分布，单因素方差分析的p值为0.8624406173813932

Out[22]:

levene                    0.221198
anova_oneway_notnormal    0.862441
dtype: float64

检验在0.01的显著性水平下显著，3组产品的直径均值相等，不存在显著性差异，本题的因素是车床品牌

汤姆思

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
1.假设检验学习笔记

根据样本信息与已知信息，对一个描述性质的命题进行“是或否”的检验与回答。
复制链接

扫一扫