卡方检验
我会用目录哩
应用情况
处理 一个因素的多项分类 / 多个因素 的实际观察频数和理论频数是否 相一致/有显著差异
应用条件
- 计数数据&非参检验
- 分类相互排斥,互不包容
- 观测值相互独立
- 每一格的理论次数<5时需矫正项
分类
- 拟合优度检验(又称配合度检验、正态吻合性检验)
- 独立性检验(用于判断多个因素(一般两个因素)的多项分类是否相互独立)
- 同质性检验(用于判断样本是否来自同一总体)
名词解释
- f0 : 实际频数分布
- fe : 理论频数分布
- X^2 : 卡方值
- k : 分类数
- n : 样本数
- i : 变量
- j : 变量的分类
- fij : 第i行第j列(变量i的j类)的单元格数值
- fxi : x变量的分类
- fyi : y变量的分类
计算步骤
先提出假设(H1:fo =/ fe),计算卡方值(需计算fe),根据df查表,进行决策。
- 提出假设
H0 : fo = fe,H1 : fo =/ fe
- 计算fe(根据不同类别的检验而不同)
- 计算卡方值
X^2 = f0与fe之差的平方比上fe再求和
- 计算df(根据不同类别的检验而不同)
- 查表,决策
拟合优度检验中的fe与df
df
1.一般理论次数:df = k - 1 (分类项-1)
2.正态拟合理论次数:df = k - 3(分类项-3)
fe
1.无差假说:fe = n * 1/k(平分)
2.假设分布:fe = n * p(乘以对应概率)
独立性检验中的fe、df与卡方值
独立性检验顾名思义是研究独立性/关联性问题,即两因素y,x是否有关系
独立性检验一般可以表示为r*c列联表形式
(有时间补一个图示)
df(c:c因素分类数)
df = (c - 1) * (r - 1)
fe(fxi, fyi见名词解释)
fe = (fxi * fyi) / n
当两因素(独立)都只有两个分类,即构成2*2列联表时,卡方值有更简便的算法
x^2 = [n * (ad - bc)^2] / [ fx1 * fx2 * fy1 * fy2]
n乘以对角线乘积差的平方比边缘值之积
当两因素(相关)都只有两个分类,构成2*2列联表时,卡方值算法如下
x^2 = (a - d)^2 / (a + d) :差的平方比和
期望次数计算总结
期望次数共有三类情况:
拟合优度中无差检验:fe = k * 1/n
拟合优度中假设检验:fe = k * p
独立性检验:fe = (fxi * fyi) / n
校正方法
当期望次数/理论次数有某项<5时:
需要用校正公式计算卡方值
x^2 = (实际次数与理论次数差的绝对值-0.5)^2求和 / fe