AI 人工智能学习之假设检验

最新推荐文章于 2025-04-11 12:53:31 发布

原创

最新推荐文章于 2025-04-11 12:53:31 发布 · 2.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #假设检验 #Z检验 #F检验 #卡方检验

假设检验是一种统计推断方法，用于判断样本与总体或样本间的差异是否由抽样误差造成。它包括Z检验、t检验、卡方检验和F检验等。Z检验适用于已知总体方差的大样本，t检验则适用于总体方差未知或样本量较小的情况。卡方检验用于检验样本是否符合预期分布或两个变量间的独立性。F检验则用于比较多个样本的方差。在人工智能学习中，假设检验常用于验证模型效果或数据差异的显著性。

假设检验

假设检验(hypothesis testing)，又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。
假设检验的特点就是采用逻辑上的反证法和依据统计上的小概率原理。小概率事件在单独一次的试验中基本上不会发生，可以不予考虑。在假设检验中，做出判断时所依据的逻辑是：如果在原假设正确的前提下，检验统计量的样本观测值的出现属于小概率事件，那么可以认为原假设不可信，从而否定它，转而接受备择假设。
常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。

假设检验的假设

需要先对结果进行假设，然后拿样本数据去验证这个假设。
所以做假设检验时会设置两个假设：
一种叫原假设，也叫零假设，用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为：等于=、大于等于>=、小于等于<=。
另外一种叫备择假设，用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为：不等于、大于>、小于<。
例如在进行假设检验时，希望接受版本2的假设，想拒绝接受版本1的假设。所以我们的假设设置为：H0 ：μ版本1 >= μ版本2 ，H1 : μ版本1 < μ版本2。

假设检验的常见的两类错误

我们通过样本数据来判断总体参数的假设是否成立，但样本时随机的，因而有可能出现小概率的错误。这种错误分两种，一种是弃真错误，另一种是取伪错误。

第 I 类错误(弃真错误)也叫α错误：它是指原假设实际上是真的，但通过样本估计总体后，拒绝了原假设。明显这是错误的，我们拒绝了真实的原假设，所以叫弃真错误，这个错误的概率我们记为α。这个值也是显著性水平，在假设检验之前我们会规定这个概率的大小。

第 II 类错误(取伪错误)也叫β错误：它是指原假设实际上假的，但通过样本估计总体后，接受了原假设。明显者是错误的，我们接受的原假设实际上是假的，所以叫取伪错误，这个错误的概率我们记为β。

在假设检验中，可能在决策上犯这两类错误。一般来说，在样本量确定的情况下，任何决策无法同时避免这两类错误的发生，即在减少一类错误发生的同时，会增大另外一类错误发生的几率。
在大多数情况下，人们会控制第一类错误发生的概率。在进行假设检验时，人们通过事先给定显著性水平α的值来控制第一类错误发生的概率，常用的 α 值有 0.01，0.05，0.1。如果犯第一类错误的成本不高，那么可以选择较大的α值；如果犯第一类错误的成本很高，则选择较小的α值。
注：人们将只控制第一类错误的假设检验称为显著性检验，许多假设检验的应用都属于这一类型。

假设检验的术语

双侧检验：如果备择假设没有特定的方向性，并含有符号“≠”，这样的检验称为双尾检验。
零假设是测试版本的指标均值等于原始版本的指标均值，备择假设是测试版本的指标均值不等于原始版本的指标均值。
单侧检验：如果备择假设具有特定的方向性，并含有符号 “>” 或 “<” ，这样的检验称为单侧检验。单侧检验分为左侧检验和右侧检验。
零假设是测试版本的指标均值小于等于原始版本的指标均值，备择假设是测试版本的指标均值大于原始版本的指标均值。
检验统计量：据以对原假设和备择假设作出决策的某个样本统计量，称为检验统计量。
主要是：Z值、t值、F值、卡方值。
显著性水平：显著性水平是指当原假设实际上正确时，检验统计量落在拒绝域的概率，简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。当零假设为真时，错误拒绝零假设的临界概率，即犯第一类错误的最大概率，用α表示。
显著性水平α越小，犯第I类错误的概率自然越小，一般取值：0.01、0.05、0.1等
当给定了检验的显著水平a=0.05时，进行双侧检验的Z值为1.96，t值为。
当给定了检验的显著水平a=0.01时，进行双侧检验的Z值为2.58 。
当给定了检验的显著水平a=0.05时，进行单侧检验的Z值为1.645 。
当给定了检验的显著水平a=0.01时，进行单侧检验的Z值为2.33
置信度：置信区间包含总体参数的确信程度，即1-α。例如：95%的置信度表明有95%的确信度相信置信区间包含总体参数（假设进行100次抽样，有95次计算出的置信区间包含总体参数）。
置信区间：包含总体参数的随机区间。
功效：正确拒绝零假设的概率，即1-β。当检验结果是不能拒绝零假设，人们又需要进行决策时，需要关注功效。功效越大，犯第二类错误的可能性越小。
临界值：与检验统计量的具体值进行比较的值。是在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦，它需要对数据分布的密度函数积分来获得。
临界区域：拒绝原假设的检验统计量的取值范围，也称为拒绝域，是由一组临界值组成的区域。如果检验统计量在拒绝域内，那么我们拒绝原假设。

p值：在零假设为真时所得到的样本观察结果或获得更极端结果的概率。也可以说，p值是当原假设为真时，错误拒绝原假设的实际概率。
左侧检验的P值为检验统计量x小于样本统计值C的概率，即：p = P( x < C)
右侧检验的P值为检验统计量x大于样本统计值C的概率，即：p = P( x > C)
双侧检验的P值为检验统计量x落在样本统计值C为端点的尾部区域内的概率的2倍，即：p = 2P( x > C) (当C位于分布曲线的右端时) 或p = 2P( X< C) (当C 位于分布曲线的左端时) 。
效应量：样本间差异或相关程度的量化指标。效应量越大，两组平均数离得越远，差异越大。如果结果具有统计显著性，那么有必要报告效应量的大小。效应量太小，意味着即使结果有统计显著性，也缺乏实用价值。