数据分析统计知识—假设检验

Tenshiyu

已于 2022-04-21 22:34:31 修改

阅读量5.3k

点赞数 3

文章标签：数据分析

于 2022-04-20 21:50:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shigure001/article/details/124202303

版权

此篇为假设检验相关，涵盖的并不全面，后续会慢慢的完善，如有纰漏欢迎指正~

目录

知识点参考来源

一、假设检验步骤

1.1 提出原假设与备择假设

1.2构建检验统计量

1.3根据事先给定的显著性水平α确定临界值拒绝域

1.4 根据临界值法决定是否拒绝原假设

二、补充知识点

2.1 第一类错误与第二类错误

2.1.1 第一类错误α

2.1.2 第二类错误β

2.1.3 α，β，样本量n的关系

2.3 置信度与置信区间

知识点参考来源

1.《商务与经济统计》（原书第13版）
2.《校招面试考点全解析——数据分析师篇》
3.百度

一、假设检验步骤

假设检验是用统计数据判断命题真伪的方式。在统计学里，命题不能被证明是正确的，只能证明其否命题是错误的。

1.1 提出原假设与备择假设

在假设检验中，我们首先对总体参数做一个尝试性的假设，该假设被称为原假设，记作 $H_{0}$ ，然后，定义另一个与原假设内容完全相反的假设，称之为备择假设，记作 $H_{1}$ ,假设检验的过程就是根据样本数据来对这两个对立的假设进行检验的过程。一般来说，我们将想要推翻的假设作为原假设，而将想要检验证实的问题作为备择假设。

1.2构建检验统计量

在这一步，我们需要根据总体标准差是否已知选择构建的统计量。

当总体标准差σ已知时对总体均值进行假设检验，选择标准正态随机变量z作为检验统计量，计算公式为： $z=\frac{\bar{x}-\mu _{0}}{\sigma /\sqrt{n}}$ ，其中 $\bar{x}$ 为样本均值， $\mu _{0}$ 为总体均值，n为样本量
当总体标准差σ未知时，检验统计量的抽样分布是t分布。检验统计量服从自由度为n-1的t分布，公式为 $t=\frac{\bar{x}-\mu _{0}}{s /\sqrt{n}}$ ，其中s为样本标准差

1.3根据事先给定的显著性水平α确定临界值拒绝域

临界值是确定检验统计量的值是否小到足以拒绝原假设的一个基准，即临界值是使得我们拒绝原假设的检验统计量的最大值。根据原假设的方式，有单侧拒绝域和双侧拒绝域。

双侧拒绝域：当原假设为 $H_{0}$ =XX,这时候拒绝域在两侧，也叫做双侧检验。

单侧拒绝域：如果原假设有 $H_{0}$ >XX，则拒绝域分布在左侧，称左侧检验；反之拒绝域分布在右侧，称右侧检验。

图中的 α即为事先给定的显著性水平，它代表了：当原假设为真时，检验统计量落在拒绝域，从而拒绝原假设的概率，也叫做第一类错误（弃真）。

在检验统计量的抽样分布中，检验统计量的临界值即为下侧面积α（显著性水平）相对应的值。

1.4 根据临界值法决定是否拒绝原假设

在双侧检验中，如果检验统计量 $z\leqslant -z_{\frac{\alpha }{2}}$ 或者 $z\geqslant z_{\frac{\alpha }{2}}$ ，则拒绝原假设；

在左侧检验中，如果检验统计量 $z\leqslant -z_{\alpha }$ ，则拒绝原假设；

在右侧检验中，如果检验统计量 $z\geqslant z_{\alpha }$ ，则拒绝原假设。

二、补充知识点

2.1 第一类错误与第二类错误

2.1.1 第一类错误α

即为进行假设检验中事先给定的显著性水平α，它代表了：当原假设为真时，检验统计量落在拒绝域，从而拒绝原假设的概率，也叫做弃真错误；

2.1.2 第二类错误β

代表了：当原假设为假时，检验统计量落在拒绝域以外，从而接受原假设的概率，也叫做存伪。

2.1.3 α，β，样本量n的关系

虽然在假设检验中通常没有控制第二类错误，但我们应知道，α，β，样本量n直接存在以下三种关系：

当三者有二者已知时，即可计算得到第三者。公式为： $n=\frac{\left ( z_{\alpha } +z\beta \right )^{2}\sigma ^{2}}{\left ( \mu _{0}-\mu _{\alpha } \right )^{2}}$
对于给定的显著性水平α，增大样本容量将会减少β
对于给定的样本容量，减小α将会使β增大，相反增大α将会使β减小

其中第三条是最为重要的，它说明不能毫无必要地选择太小的显著性水平α，对于给定的样本容量，选择较小的显著性水平意味着将使发生第二类错误的风险增大。

2.2 p-值法

p值和t值，z值一样，都是统计学中用于判断显著性的指标。它度量样本所提供的证据对原假设的支持程度，p-值越小说明拒绝原假设的证据越多。

可以将p值理解为原假设 $H_{0}$ 正确的概率，当p-值越小， $H_{0}$ 就越不可能正确。

p-值法的拒绝法则：如果p-值 $\leqslant$ α，则拒绝 $H_{0}$

2.3 置信度与置信区间

中心极限定理告诉我们，当抽样次数足够多时，样本的均值将围绕总体均值上下波动，而置信区间就是这个波动的范围，置信区间是在预先确定好的显著性水平下计算出来的，公式为： $\bar{x}\pm z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}$

，而置信度为1-α，综上可知置信区间与置信度是相互对应的。

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。