一、 卡方分布
对分类数据进行分析的统计方法主要是利用卡方分布,也有许多教材将其称为卡方检验。卡方检验的应用主要表现在两个方面:拟合优度和独立性检验。列联表是进行独立性检验的重要工具。
- 卡方统计量
上图是自由度分别为1、5和10时的卡方分布,可以看出,自由度越小,分布就越向左边倾斜,随着自由度的增加,卡方分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,卡方分布将趋近于对称的正态分布。利用卡方统计量换可以对分类数据进行拟合优度检验和独立性检验。 - 拟合优度检验
拟合优度检验使用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布情况,计算出分类变量中个类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。例1.1912年4月15日,泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海南发生后,幸存者共718人,其中男性374人,女性344人,以0.1的显著性水平检验存活状况与性别是否有关。本例中的原假设和备择假设分别为:
自由度df=R-1,其中R为分类变量类型的个数。本例中分类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1.
- 列联分析:独立性检验
例2. 一种原料来自三个不同的地区,原料质量被分成三个不同的等级。从这批原料中随机抽取500件进行检验,如下表:
要求检验各个地区和原料之间是否存在依赖关系?
计算过程如下表所示: