F1, 中位数,四分位距IQR等指标的统计检验

本文参考Cohen 19951的5.3节。

F1, 中位数,四分位距IQR等指标的统计检验

对于许多有趣的统计数据,例如剪裁平均值(Trimmed Mean),四分位间距(IQR)和F1-score,没有明确的样本分布公式。这时可以用到随机统计检验(Randomization Tests).

随机统计检验(Randomization Tests)

与传统的参数检验和bootstrap检验相比,随机统计检验可以在不参考总体参数(例如,中位数这个指标的统计分布)的情况下,判断两个样本的区别是否统计显著。下面给具体例子:

1. 举例:比较两组数据的IQR是否有显著差别

有两个班参加同一个考试。第一个班有25名学生,第二个班有20名学生。学生分数如下:

Sample 1:

      48.35, 53.93, 55.48, 45.67, 52.82,
      49.47, 57.00, 53.61, 57.69, 51.34,
      44.98, 54.70, 59.32, 51.70, 50.73,
      46.84, 63.13, 52.50, 49.67, 54.07,
      44.96, 48.68, 53.94, 59.00, 50.92

Sample 2:

      64.82, 51.69, 57.00, 58.17, 40.63,
      50.90, 48.77, 40.33, 50.76, 49.64,
      56.25, 65.68, 57.50, 47.45, 46.78,
      61.34, 53.66, 49.10, 54.49, 54.15

我们想知道样本2是否比样本1的组内差异更大(more variable, or, with larger standard deviation)。这里用四分位间距IQR来衡量组内差异。使用的python的scipy.stat.iqr计算出Sample 1和Sample 2的IQR分别为5.23和8.11。差额是 d I Q R = 5.23 − 8.11 = − 2.88 d_{IQR}=5.23-8.11=-2.88 dIQR=5.238.11=2.88。为了确定这种差异偶然产生的概率,我们需要 d I Q R d_{IQR} dIQR的值分布。与比较两组数的均值大小是否有显著差异不同,我们不能写出 d I Q R d_{IQR} dIQR的解析分布(对于均值,可以将 d m e a n d_{mean} dmean转化成Standard Normal Distribution,参考z-test)。所以需要一些其他的方法,e.g., Randomization Tests.

现在考虑假设检验: H 0 H_0 H0:两个样本的IQR水平相同。如果 H 0 H_0 H0是正确的,那么在样本之间随机交换分数几乎不会影响 d I Q R d_{IQR} dIQR。这将导致以下过程:随机地对两组数进行Shuffle,以对 d I Q R d_{IQR} dIQR的分布进行抽样。

2. 操作步骤:

  1. S A S_A SA S B S_B

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值