统计思维（实例8）——假设检验

最新推荐文章于 2023-12-12 13:15:09 发布

大数据分析BDA

最新推荐文章于 2023-12-12 13:15:09 发布

阅读量2.3k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/shandianke/article/details/78947857

版权

本文介绍了经典假设检验的概念，包括检验统计量的选择、原假设的定义、p值的计算以及如何解释结果。通过实例分析了妊娠期时间、新生儿体重与母亲年龄的相关性、骰子公平性检验等问题，展示了如何运用卡方检验和误报率来评估统计显著性。

摘要由CSDN通过智能技术生成

经典假设检验

这章解决的基本问题是，在一个样本中观察到的效应是否也会出现在更大规模的总体中。例如，在NSFG样本中，第一胎和其他胎的妊娠期长度不同，这种效应是真实反映了美国妇女的生育情况，还是偶然出现在这个样本中而已。

这个问题有几种表示方法：Fisher原假设检验、Neyman-Pearson决策理论和贝叶斯推理，大部分人在实践中使用的都是这3中方法。这里介绍这些方法的一个子集，称为经典假设检验（classical hypothesis testing）。

经典假设检验的目的是回答一个问题：“给定一个样本和一个直观效应，这个效应是偶然出现的概率为多少？”，回答这个问题的步骤如下：

第一步，选择一个检验统计量（test statistic），对直观效应进行量化。
第二步，定义原假设（null hypothesis）。原假设是系统的一个模型，所基于的假设是直观效应不为真。
第三步，计算p值。p值是在原假设为真时，直观效应出现的概率。
最后，解释结果。如果p值很低，我们称这个效应是统计显著（statistically significant）的，即不太可能偶然发生。在这种情况下，我们推断，这个效应在大规模总体中出现的可能性更大。

假设检验

本文用HypothesisTest表示一个经典假设检验结果，定义如下：

class HypothesisTest(object):
    
    def __init__(self, data):
        self.data = data
        self.MakeModel()
        self.actual = self.TestStatistic(data) 
       
    def PValue(self, iters=1000):
        self.test_stats = [self.TestStatistic(self.RunModel())                            
                            for _ in range(iters)]
        
        count = sum(1 for x in self.test_stats if x >= self.actual)        
        return count / iters   
             
    def TestStatistic(self, data):
        raise UnimplementedMethodException()