一.卡方分布
卡方分布是一种概率分布,若kk个随机变量Z1、......、ZkZ1、......、Zk是相互独立且符合标准正态分布的随机变量(数学期望为0、方差为1),那么随机变量ZZ的平方和X=∑i=1kZ2iX=∑i=1kZi2被称为服从自由度为kk的卡方分布,记作:X∼χ2(k)X∼χ2(k)。
二.卡方概率密度函数
卡方分布的概率密度函数为:
fx(x)=12k2Γ(k2)xk2−1e−x2fx(x)=12k2Γ(k2)xk2−1e−x2
其中,x≥0x≥0,当x≤0x≤0时fx(x)=0fx(x)=0,ΓΓ表示Gamma函数。
不同自由度情况下的卡方分布概率密度曲线图:
随着自由度kk的增加,曲线逐渐趋于对称。当自由度kk趋近于无穷时,卡方分布趋近正态分布。
三.卡方检验
卡方检验是非参数检验,以卡方分布为理论依据的假设检验方法,基本原理是通过样本的频数分布来推断总体是否服从某种理论分布。卡方检验的原假设为:样本所属总体的分布与理论分布之间不存在显著差异。卡方检验的检验统计量方程为:
χ2=∑i=1k(Moi−Mei)2Meiχ2=∑i=1k(Moi−Mei)2Mei
χ2χ2统计量在大样本条件下逐渐服从自由度为k−1k−1的卡方分布,MoiMoi表示观测频数,MeiMei表示理论频数。χ2χ2统计量越小,表示观测频数与理论频数越接近。如果小于由显著性水平和自由度确定的临界值,那么认为样本所属的总体分布与理论分布无显著差异。
四.卡方检验例子
实验目的:想知道不同年龄组的样本个数是否存在显著差异。如果p>0.05p>0.05,那么接受原假设,即不同年龄组的样本个数并不存在显著不同。
变量视图如下所示:
数据视图如下所示:
分析->非参数检验->旧对话框->卡方:
卡方检验结果如下所示:
重点说明下卡方、自由度和渐近显著性是如何计算的:
1.卡方计算
(45−50)250+(51−50)250+(52−50)250+(52−50)250=25+1+4+450=3450=0.68(45−50)250+(51−50)250+(52−50)250+(52−50)250=25+1+4+450=3450=0.68
2.自由度计算
k−1k−1,kk表示分类变量数。
3.渐近显著性计算
渐近显著性就是pp值,p=1−F(卡方值,自由度)p=1−F(卡方值,自由度)。使用Python代码计算:
from scipy.stats import chi2
# 第1个参数表示卡方值,第2个参数表示自由度
p = 1 - chi2.cdf(0.68, 3)
print(p) # 0.8778977619609463
在平时看的医学论文中,比较常见的场景是根据卡方检验来计算患者组和对照组的性别是否具有显著性差异: