在学习统计学检验时翻到了一个有关气象学统计分析的网站 (http://iridl.ldeo.columbia.edu/dochelp/StatTutorial/Homogeneity/index.html),这里说的数据同质性从来没见过,搜索也只有英语结果。尝试翻译一下加入自己的理解,看看是不是异质性检验之类的东西。提示:原文关于数据的描述是从气象数据的角度来讲的。
Introduction
在使用一组统计数据之前,检验这组数据是否同质 (homogeneous) 十分重要。具有同质性的数据应当来自同一组人群 (?: are drawn from a single population),所有可能影响数据的外部过程必须在样本时间段内保持不变。随时间变化,人为变化会逐步影响数据的统计学性质,导致非同质性 (inhomogeneity)。现实中获得完全同质的数据几乎是不可能的,因为观测站周围区域不可避免的变化往往会影响数据。
Analysis the Homogeneity
检验同质性的方法:
-
计算中位数。
-
数据中的每个值减去中位数。
-
记下数据曲线越过坐标横轴的次数(由正变负记为A,由负变正记为B),得到数据正值或负值的持续性。
-
用显著性表来确定同质性指标的阈值。
找到数据样本容量一半的那一行,如果 A 与 B 介于 0.1 与 0.9 显著性水平阈值之间(未说明是否包括),则有90%置信度说明这组数据是同质的。
半样本容量 | .10 显著性水平 | .90 显著性水平 |
---|---|---|
10 | 8 | 13 |
11 | 9 | 14 |
12 | 9 | 16 |
13 | 10 | 17 |
14 | 11 | 18 |
15 | 12 | 19 |
16 | 13 | 20 |
17 | 14 | 21 |
18 | 15 | 22 |
19 | 16 | 23 |
20 | 16 | 25 |
25 | 22 | 30 |
30 | 26 | 36 |
35 | 31 | 41 |
40 | 35 | 47 |
45 | 40 | 52 |
50 | 45 | 57 |
Oliver, John E. Climatology: Selected Applications. p 7.
Example
从 1920 年到 1970 年,舍布鲁克数据有 18 次运行。构成样本的元素总数为 50(每年平均最低温度构成一个元素)。 根据该表,在 0.10 的显着性限制下,应该至少有 22 次runs。 因此,我们可以有 90% 的置信度得出结论,该数据不是同质的。
Conclusion
个人感觉这是一种简单的同分布检验。鉴于这个固定的显著性表,它应该是只适用于气象类数据的,不过这种简单的检验思路还是值得一看的。
内容来自 http://iridl.ldeo.columbia.edu/dochelp/StatTutorial/Homogeneity/index.html