统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。
什么是列联表?
列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2 × 22×2 频率表,由两个变量产生,每个变量有两个级别:
组/观察 | 观察1 | 观察2 |
---|---|---|
第1组 | ñ1 ,1ñ1,1 | ñ1 ,2ñ1,2 |
第2组 | ñ2 ,1ñ2,1 | ñ2 ,2ñ2,2 |
给定这样一个表格,问题是第1组是否表现出与第2组相比的观测频率。这些组代表因变量,因为它们依赖于自变量的观察。请注意,列联表必须是一种常见的误解2 × 22×2; 它们可以具有任意数量的维度,具体取决于变量显示的级别数。尽管如此,应避免对具有多个维度的列联表进行统计检验,因为除其他原因外,解释结果将具有挑战性。
数据集
要研究列联表的测试,我们将使用warpbreaks数据集:
## breaks wool tension
## 1 26 A L
## 2 30 A L
## 3 54 A L
## 4 25 A L
## 5 70 A L
## 6 52 A L
这是一个包含来自纺织行业的三个变量的数据集:中断描述了经线中断的次数,羊毛∈ { A ,B }羊毛∈{一个,乙} 描述了经过测试的羊毛类型 张力∈ { L ,M,H}张力∈