卡方检验和方差分析(ANOVA:Analysis of Variance)是两种常用的统计检验,但了解两者差异并知道什么场景如何使用那种检验很重要。本文介绍两类检验的差异,并通过示例说明基于场景选择那种检验方法。
卡方检验
在统计学中,有两种不同类型的卡方检验:
- 卡方拟合优度检验
用于检验一个类别变量是否服从假设的分布。举例:
- 想知道骰子是否均匀,我们抛投它50次,并记录它落在每个数字上的次数。
- 想了解顾客每周天进店次数相等,随机选择一周,并记录每天进店人数。
- 卡方独立性检验
用于检验两个类别变量是否具有显著性相关性。举例:
- 想知道性别是否与政党偏好有关。我们随机调查500名选民,记录他们的性别和政党偏好。
- 想知道一个人最喜欢颜色是否与其最喜欢的运动有关。随机调查100人,记录他们对这两者的偏好。
注意这两种检验都在处理分类变量时使用。这些变量有名义或标签变量,都可以归为类别变量。
方差分析
在统计学上,方差分析被用来确定多个独立组的均值是否有显著性差异。举例:
- 想知道三种不同的学习方法是否会导致不同的考试平均成绩。
- 想知道四种不同类型的肥料是否会导致不同的作物平均产量。
注意当至少有一个分类变量和一个连续因变量时,使用方差分析是合适的。
什么时候使用卡方检验和方差分析
首要准则为:
- 你选择的每个变量都是类别变量时使用卡方检验
- 至少有一个类别变量和连续变量时使用方差分析
下面通过几个应用场景加深你的理解:
1、场景1
假设研究人员想知道教育水平和婚姻状况是否相关。为此收集了关于这两个变量的50人简单随机样本数据。
因为研究对象是两个分类变量——教育水平
和婚姻状况
,我们应该使用独立卡方检验。
2、场景2
假设经济学家想确定三个城市中支持某部法律的居民比例是否不同。因为这里仅分析了一个分类变量的分布情况,为此使用卡方拟合优度检验。
3、场景3
假设篮球教练想知道三种不同的训练方法是否会导致他的球员的平均跳跃高度不同。
因为分析对象包括:一个分类变量(训练方法)和一个连续因变量(跳跃高度),应该使用方差分析。
4、场景4
假设植物学家想知道两种不同的光照强度和三种不同的浇水频率是否会导致不同的平均植物生长量。
因为分析对象包括:两个分类变量(光照强度和浇水频率)和一个连续因变量(植物生长量),应该使用方差分析。
R实现示例
假设想知道性别是否与政党偏好有关。我们简单随机抽样500名选民,调查他们的政党偏好,收集数据如下:
gender | Rep | Dem | Ind |
---|---|---|---|
Male | 120 | 90 | 40 |
Female | 110 | 95 | 45 |
data <- matrix(c(120, 90, 40, 110, 95, 45), ncol=3, byrow=TRUE)
colnames(data) <- c("Rep","Dem","Ind")
rownames(data) <- c("Male","Female")
data <- as.table(data)
data
# Rep Dem Ind
# Male 120 90 40
# Female 110 95 45
# 执行卡方检验
chisq.test(data)
# Pearson's Chi-squared test
#
# data: data
# X-squared = 0.86404, df = 2, p-value = 0.6492
解释输出:
- 卡方检验统计量:0.86404
- 自由度:2 (行数-1)*(列数-1)
- P值:0.6492
我们回顾下卡方检验的零假设和备择假设:
- H 0 {H_0} H0: 两个变量独立
- H 1 {H_1} H1:两个变量不独立
由于检验p值(0.6492)不小于0.05,不能拒绝原假设。这意味着我们没有充分的证据表明性别和政党偏好之间存在联系。
方差分析示例可参考另一篇《R实现方差分析教程》。