检验数据是否符合正态分布的统计方法

铁松溜达py

已于 2023-09-28 22:37:48 修改

阅读量8.1k

点赞数 3

文章标签： python 概率论

于 2023-09-04 00:35:08 首次发布

本文链接：https://blog.csdn.net/book_dw5189/article/details/132658445

版权

Shapiro-Wilk检验、Kolmogorov-Smirnov检验和Anderson-Darling检验都是常见用于检验数据是否符合正态分布的统计方法。以下是它们的简要介绍：

Shapiro-Wilk检验：
- Shapiro-Wilk检验是一种用于小到中等样本量的检验方法。它的原假设是数据来自正态分布。如果p值小于显著性水平（通常为0.05），则可以拒绝原假设，即认为数据不符合正态分布。
Kolmogorov-Smirnov检验：
- Kolmogorov-Smirnov检验是一种用于大样本量的检验方法，可以用于检验数据是否符合特定的理论分布，包括正态分布。它的原假设也是数据来自正态分布。如果p值小于显著性水平，就可以拒绝原假设。
Anderson-Darling检验：
- Anderson-Darling检验也是一种用于检验数据是否符合某一理论分布的方法，包括正态分布。与前两种方法不同，Anderson-Darling检验还提供了一种测量数据偏离理论分布的程度的方式。它的原假设是数据来自正态分布，如果统计值小于临界值，则可以接受原假设。

不同的正态性检验方法在使用上有不同的前提要求和特点。以下是一些常见的正态性检验方法以及它们的主要前提和特点：

Shapiro-Wilk测试：

前提要求： 数据是连续型的，并且样本量通常不宜太小（通常建议样本量大于5或10）。
特点： 这是一种相对较强大的正态性检验方法，适用于各种数据集大小。它对非正态性的敏感性相对较高，可以用于小样本和大样本。

Kolmogorov-Smirnov测试：

前提要求： 数据是连续型的。对于单样本检验，通常要求样本量不宜太小，对于双样本检验，两个样本的大小应该接近。
特点： 这个测试适用于比较数据与理论正态分布的累积分布函数。它比较灵活，可用于单样本和两样本比较。但对于小样本数据，可能不够敏感。

Anderson-Darling测试：

前提要求： 数据是连续型的。通常用于大样本数据。
特点： 这个测试是Shapiro-Wilk的扩展，对大样本数据效果较好，通常用于更大的样本量。它提供了一些不同权重的统计量，可用于不同的分布检验。

Q-Q图（Quantile-Quantile图）：

前提要求： 适用于连续型数据。不需要特定的样本量，但图形解释可能需要经验。
特点： 这是一种可视化方法，通过直观比较数据的分位数和理论正态分布的分位数来判断数据是否符合正态分布。它提供了一个快速的初步印象，但不提供具体的p-value。

Lilliefors测试：

前提要求： 适用于小样本数据，通常用于样本量较小的情况。
特点： 这是Kolmogorov-Smirnov测试的变体，专门用于小样本数据。与标准Kolmogorov-Smirnov测试相比，它对小样本数据更敏感。

每种测试方法都有其适用范围和局限性，选择合适的方法取决于您的数据特点和研究问题。通常，建议结合多种方法的结果来做出最终的判断。此外，正态性检验通常是统计分析的一个步骤，而不是最终结论。

这些检验在实际应用中都有其优点和限制，选择哪种检验应该根据数据的特点和研究目的来决定。此外，需要谨慎解释检验结果，因为在大样本中，即使数据略微偏离正态分布，也可能导致检验结果拒绝原假设，而在小样本中则可能不敏感。因此，通常需要综合考虑多种方法和图形分析来评估数据的分布情况。

import numpy as np
from scipy import stats

# 创建一个示例数据集，这里使用Numpy生成一个正态分布样本
np.random.seed(0)
data = np.random.normal(0, 1, 100)  # 均值为0，标准差为1的正态分布样本，共100个数据点

# Shapiro-Wilk检验
shapiro_stat, shapiro_p = stats.shapiro(data)
print("Shapiro-Wilk检验统计值:", shapiro_stat)
print("Shapiro-Wilk检验p值:", shapiro_p)
if shapiro_p < 0.05:
    print("Shapiro-Wilk检验拒绝了正态分布假设")
else:
    print("Shapiro-Wilk检验未拒绝正态分布假设")

# Kolmogorov-Smirnov检验
ks_stat, ks_p = stats.kstest(data, 'norm')
print("\nKolmogorov-Smirnov检验统计值:", ks_stat)
print("Kolmogorov-Smirnov检验p值:", ks_p)
if ks_p < 0.05:
    print("Kolmogorov-Smirnov检验拒绝了正态分布假设")
else:
    print("Kolmogorov-Smirnov检验未拒绝正态分布假设")

# Anderson-Darling检验
anderson_stat, anderson_critical_values, anderson_significance_levels = stats.anderson(data, 'norm')
print("\nAnderson-Darling检验统计值:", anderson_stat)
print("Anderson-Darling检验临界值:", anderson_critical_values)
print("Anderson-Darling检验显著性水平:", anderson_significance_levels)

# 判断是否符合正态分布
if anderson_stat < anderson_critical_values[2]:  # 选择2.5%的显著性水平
    print("Anderson-Darling检验未拒绝正态分布假设")
else:
    print("Anderson-Darling检验拒绝了正态分布假设")

这个示例代码首先生成一个包含100个正态分布数据点的样本。然后，分别使用Shapiro-Wilk检验、Kolmogorov-Smirnov检验和Anderson-Darling检验来检验这些数据是否符合正态分布。

Shapiro-Wilk检验使用stats.shapiro()函数，返回统计值和p值。如果p值小于显著性水平（通常为0.05），则拒绝正态分布假设。
Kolmogorov-Smirnov检验使用stats.kstest()函数，返回统计值和p值。同样，如果p值小于显著性水平，就拒绝正态分布假设。
Anderson-Darling检验使用stats.anderson()函数，返回统计值、临界值和显著性水平。在这里，我们选择了2.5%的显著性水平来判断是否符合正态分布。如果统计值小于临界值，则未拒绝正态分布假设。

根据这些检验的结果，你可以判断数据是否符合正态分布的假设。请注意，这些检验的结果可能受样本大小和显著性水平的影响，因此需要谨慎解释结果。

-------------

Shapiro-Wilk检验的统计值是检验的统计量，它用于衡量样本数据是否符合正态分布的程度。在Python的SciPy库中，使用stats.shapiro()函数执行Shapiro-Wilk检验时，该函数的返回值中包含了两个值：

Shapiro-Wilk检验统计值（Shapiro-Wilk test statistic）：这是检验的统计量，通常表示为W。该值的计算依赖于样本数据的排序顺序和样本大小。统计值的大小反映了数据偏离正态分布的程度，如果统计值远离1，那么数据越偏离正态分布。通常，更小的统计值表明数据更不符合正态分布。
p值（p-value）：p值是用于判断检验的显著性的指标。它表示在原假设为真的情况下，观察到的统计值或更极端情况出现的概率。如果p值小于显著性水平（通常为0.05），则可以拒绝原假设，即认为数据不符合正态分布。如果p值大于显著性水平，则不拒绝原假设，即认为数据可能符合正态分布。

在Shapiro-Wilk检验的结果中，我们通常关注p值，因为它用于决定是否拒绝正态分布的假设。如果p值小于显著性水平，那么我们倾向于拒绝正态分布假设，否则，我们不拒绝正态分布假设。

简而言之，Shapiro-Wilk检验统计值越小，表明数据越不符合正态分布，而p值用于确定检验结果的显著性。

-----------------------------

观察数据的统计指标，如均值、中位数、标准差、偏度和峰度是一种初步判断数据是否符合正态分布的方法。以下是这些指标如何用于判断数据的分布情况：

均值和中位数：在正态分布中，均值和中位数应该非常接近，因为正态分布是对称的。如果均值和中位数之间的差异很小，这可能表明数据近似正态分布。
标准差：正态分布的标准差通常是数据分布的一个重要特征。标准差衡量数据点与均值之间的离散程度。在正态分布中，标准差应该保持相对稳定，不随样本的变化而大幅度变化。
偏度：偏度衡量数据分布的偏斜程度。在正态分布中，偏度应接近0。正偏度表示数据右偏（右侧的尾部较长），负偏度表示数据左偏（左侧的尾部较长）。较接近0的偏度可能表明数据近似正态分布。
峰度：峰度衡量数据分布的尖锐程度。正态分布的峰度通常为3，被称为正常峰度。较接近3的峰度可能表明数据近似正态分布。高于3的峰度表示尖峭峰（比正态峰更尖锐），低于3的峰度表示平顶峰（比正态峰更平坦）。

需要注意的是，这些统计指标的使用只能提供初步的判断，不能确定数据是否绝对符合正态分布。此外，小样本数据的统计指标可能不太可靠，因此更严格的检验方法（如Shapiro-Wilk检验、Kolmogorov-Smirnov检验和Anderson-Darling检验）通常更适合用于确定数据的分布情况。最好的做法是综合考虑多个方法和指标来评估数据的分布特性。