F1, 中位数，四分位距IQR等指标的统计检验

最新推荐文章于 2025-04-26 22:09:43 发布

救世腹肌2298

最新推荐文章于 2025-04-26 22:09:43 发布

阅读量4.2k

点赞数 1

分类专栏：人工智能统计文章标签：机器学习人工智能统计学

本文链接：https://blog.csdn.net/qq_37043191/article/details/110390212

版权

本文介绍了如何利用随机统计检验（如随机化测试）来判断F1分数、中位数和四分位距（IQR）等指标在两个样本之间的差异是否显著。通过举例比较两个班级考试成绩的IQR，展示了在无法得知分布情况下，如何通过随机交换数据来评估差异的统计显著性。在给定的例子中，经过500次随机抽样，结果显示样本2的IQR差异并不显著于样本1。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文参考Cohen 1995¹的5.3节。

F1, 中位数，四分位距IQR等指标的统计检验

对于许多有趣的统计数据，例如剪裁平均值（Trimmed Mean），四分位间距（IQR）和F1-score，没有明确的样本分布公式。这时可以用到随机统计检验（Randomization Tests）.

随机统计检验（Randomization Tests）

与传统的参数检验和bootstrap检验相比，随机统计检验可以在不参考总体参数（例如，中位数这个指标的统计分布）的情况下，判断两个样本的区别是否统计显著。下面给具体例子：

1. 举例：比较两组数据的IQR是否有显著差别

有两个班参加同一个考试。第一个班有25名学生，第二个班有20名学生。学生分数如下：

Sample 1:

      48.35, 53.93, 55.48, 45.67, 52.82,
      49.47, 57.00, 53.61, 57.69, 51.34,
      44.98, 54.70, 59.32, 51.70, 50.73,
      46.84, 63.13, 52.50, 49.67, 54.07,
      44.96, 48.68, 53.94, 59.00, 50.92

Sample 2:

      64.82, 51.69, 57.00, 58.17, 40.63,
      50.90, 48.77, 40.33, 50.76, 49.64,
      56.25, 65.68, 57.50, 47.45, 46.78,
      61.34, 53.66, 49.10, 54.49, 54.15

我们想知道样本2是否比样本1的组内差异更大（more variable, or, with larger standard deviation）。这里用四分位间距IQR来衡量组内差异。使用的python的scipy.stat.iqr计算出Sample 1和Sample 2的IQR分别为5.23和8.11。差额是 $d_{IQR}=5.23-8.11=-2.88$ 。为了确定这种差异偶然产生的概率，我们需要 $d_{IQR}$ 的值分布。与比较两组数的均值大小是否有显著差异不同，我们不能写出 $d_{IQR}$ 的解析分布（对于均值，可以将 $d_{mean}$ 转化成Standard Normal Distribution，参考z-test）。所以需要一些其他的方法，e.g., Randomization Tests.