置信区间的介绍和使用：置信水平、显著性水平、临界值

rubyw

已于 2023-12-12 10:54:47 修改

阅读量3w

点赞数 7

分类专栏： # 概念和理论文章标签：数据分析学习

于 2023-11-17 11:26:54 首次发布

本文链接：https://blog.csdn.net/rubyw/article/details/134458938

版权

23 篇文章

订阅专栏

一、理论

计算置信区间的具体方法通常取决于所选择的统计分布以及所使用的估计方法。在正态分布下，以样本均值为中心的置信区间的计算是比较常见的，尤其是当样本大小足够大时，根据中心极限定理，样本均值的分布接近正态分布。

以下是计算正态分布下置信区间的一般步骤：

在这里插入图片描述

在这里插入图片描述

例如
在这里插入图片描述
这表示我们有95%的信心认为总体均值落在34到36之间。需要注意，这个方法假设样本来自正态分布，如果样本不服从正态分布，而样本大小又较小，可能需要使用 t 分布进行估计。

置信水平是用来表示对一个估计值的信心程度的概念，通常以百分比的形式表示。常见的置信水平包括：

这些置信水平通常与统计推断中的置信区间概念一起使用。当我们进行参数估计时，我们不仅仅给出一个点估计值，还会提供一个置信区间，以便于对真实值的不确定性有一个更好的理解。选择置信水平时，需要在准确性和置信度之间进行权衡。更高的置信水平通常意味着更宽的置信区间，因为我们需要更加谨慎地估计真实值的范围。

在统计学中，显著性水平（significance level）通常用符号 (\alpha) 表示，它表示在进行假设检验时原假设H0为真拒绝原假设的概率。常见的显著性水平包括：

显著性水平的选择需要根据研究的具体背景、数据的性质以及研究者对错误类型的容忍度进行权衡。通常，选择一个适当的显著性水平是研究设计中的一个关键步骤，因为它直接影响到实验或调查结果的解释和结论。

临界值是在假设检验中用于判断是否拒绝原假设的关键值。它们与显著性水平α和检验的自由度有关。在不同的假设检验和分布假设下，临界值的计算方式可能会有所不同。以下是一些常见情况下的临界值：

正态分布的临界值：
- 对于双侧检验，通常使用正态分布的 z 分布。
  - 在 α = 0.05 水平下，双侧检验的临界值约为 ±1.96。
  - 在 α = 0.01 水平下，双侧检验的临界值约为 ±2.58。
- 对于单侧检验，将双侧检验的临界值调整，例如，在 (\alpha = 0.05) 水平下，单侧检验的临界值为 ±1.645。
t 分布的临界值：
- 当样本容量较小，或总体标准差未知时，通常使用 t 分布。
- t 分布的临界值取决于自由度和显著性水平。
  - 例如，在 α = 0.05 水平下，自由度为 df 的 t 分布的双侧检验的临界值可通过查找 t 分布表或使用统计软件来获取。
卡方分布的临界值：
- 用于卡方检验。
- 卡方分布的临界值取决于自由度和显著性水平。
  - 例如，在α = 0.05 水平下，自由度为 df 的卡方分布的双侧检验的临界值可通过查找卡方分布表或使用统计软件来获取。