Matnote_2_数据的同质性 Data Homogeneity

在学习统计学检验时翻到了一个有关气象学统计分析的网站 (http://iridl.ldeo.columbia.edu/dochelp/StatTutorial/Homogeneity/index.html),这里说的数据同质性从来没见过,搜索也只有英语结果。尝试翻译一下加入自己的理解,看看是不是异质性检验之类的东西。提示:原文关于数据的描述是从气象数据的角度来讲的。

Introduction

在使用一组统计数据之前,检验这组数据是否同质 (homogeneous) 十分重要。具有同质性的数据应当来自同一组人群 (?: are drawn from a single population),所有可能影响数据的外部过程必须在样本时间段内保持不变。随时间变化,人为变化会逐步影响数据的统计学性质,导致非同质性 (inhomogeneity)。现实中获得完全同质的数据几乎是不可能的,因为观测站周围区域不可避免的变化往往会影响数据。

Analysis the Homogeneity

检验同质性的方法:

  • 计算中位数。

  • 数据中的每个值减去中位数。

  • 记下数据曲线越过坐标横轴的次数(由正变负记为A,由负变正记为B),得到数据正值或负值的持续性。

  • 用显著性表来确定同质性指标的阈值。

找到数据样本容量一半的那一行,如果 A 与 B 介于 0.1 与 0.9 显著性水平阈值之间(未说明是否包括),则有90%置信度说明这组数据是同质的。

半样本容量.10 显著性水平.90 显著性水平
10813
11914
12916
131017
141118
151219
161320
171421
181522
191623
201625
252230
302636
353141
403547
454052
504557

Oliver, John E. Climatology: Selected Applications. p 7.

Example

从 1920 年到 1970 年,舍布鲁克数据有 18 次运行。构成样本的元素总数为 50(每年平均最低温度构成一个元素)。 根据该表,在 0.10 的显着性限制下,应该至少有 22 次runs。 因此,我们可以有 90% 的置信度得出结论,该数据不是同质的。

Conclusion

个人感觉这是一种简单的同分布检验。鉴于这个固定的显著性表,它应该是只适用于气象类数据的,不过这种简单的检验思路还是值得一看的。

内容来自 http://iridl.ldeo.columbia.edu/dochelp/StatTutorial/Homogeneity/index.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值