本文参考Cohen 19951的5.3节。
F1, 中位数,四分位距IQR等指标的统计检验
对于许多有趣的统计数据,例如剪裁平均值(Trimmed Mean),四分位间距(IQR)和F1-score,没有明确的样本分布公式。这时可以用到随机统计检验(Randomization Tests).
随机统计检验(Randomization Tests)
与传统的参数检验和bootstrap检验相比,随机统计检验可以在不参考总体参数(例如,中位数这个指标的统计分布)的情况下,判断两个样本的区别是否统计显著。下面给具体例子:
1. 举例:比较两组数据的IQR是否有显著差别
有两个班参加同一个考试。第一个班有25名学生,第二个班有20名学生。学生分数如下:
Sample 1:
48.35, 53.93, 55.48, 45.67, 52.82,
49.47, 57.00, 53.61, 57.69, 51.34,
44.98, 54.70, 59.32, 51.70, 50.73,
46.84, 63.13, 52.50, 49.67, 54.07,
44.96, 48.68, 53.94, 59.00, 50.92
Sample 2:
64.82, 51.69, 57.00, 58.17, 40.63,
50.90, 48.77, 40.33, 50.76, 49.64,
56.25, 65.68, 57.50, 47.45, 46.78,
61.34, 53.66, 49.10, 54.49, 54.15
我们想知道样本2是否比样本1的组内差异更大(more variable, or, with larger standard deviation)。这里用四分位间距IQR来衡量组内差异。使用的python的scipy.stat.iqr
计算出Sample 1和Sample 2的IQR分别为5.23和8.11。差额是 d I Q R = 5.23 − 8.11 = − 2.88 d_{IQR}=5.23-8.11=-2.88 dIQR=5.23−8.11=−2.88。为了确定这种差异偶然产生的概率,我们需要 d I Q R d_{IQR} dIQR的值分布。与比较两组数的均值大小是否有显著差异不同,我们不能写出 d I Q R d_{IQR} dIQR的解析分布(对于均值,可以将 d m e a n d_{mean} dmean转化成Standard Normal Distribution,参考z-test)。所以需要一些其他的方法,e.g., Randomization Tests.
现在考虑假设检验: H 0 H_0 H0:两个样本的IQR水平相同。如果 H 0 H_0 H0是正确的,那么在样本之间随机交换分数几乎不会影响 d I Q R d_{IQR} dIQR。这将导致以下过程:随机地对两组数进行Shuffle,以对 d I Q R d_{IQR} dIQR的分布进行抽样。
2. 操作步骤:
-
设 S A S_A SA和 S B S_B