卡方检验的应用主要表现在两个方面:拟合优度检验和独立性检验。
列联表是进行独立性检验的重要工具。
统计数据的类型分别有:分类数据、顺序数据、数值型数据。
分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述调查对象的不同特征。
注意:分类数据的结果是频数,卡方检验是对分类数据的频数进行分析的统计方法。
卡方统计量应用
卡方统计量可以用于测定两个分类变量之间的相关程度。
若用表示观察值频数,用
表示期望频数,则
卡方统计量可以写为:
卡方统计量有以下特征:
,因为它是对平方结果的汇总;
卡方统计量的分布与自由度有关;
卡方统计量描述了观察值和期望值的接近程度;
两者越接近,即的绝对值越小,计算出的值就越小;反之,的绝对值越大,计算出的
值就越大。
注意:检验正是通过对
的计算结果与
分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
分布与自由度的关系
如上图所示,自由度越小,分布就越向左边倾斜,随着自由度的增加,分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度继续增大,
分布将趋近于对称的正态分布。
(2)利用统计量,可以对分类数据进行拟合优度检验和独立性检验
- 拟合优度检验
拟合优度检验是对一个分类变量的检验。
拟合优度检验是用统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
案例分析
1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共有718人,其中男性374人,女性344人,以a=0.1的显著性水平检验存活状况与性别是否有关。
在本案例中需要判断观察频数与期望频数是否一致。
:观察品数与期望频数一致
:观察频数与期望频数不一致
步骤一 | 步骤二 | 步骤三 | 步骤四 | ||
374 | 565(=1738X(718/2208)) | -191 | 36481 | 64.6 | |
344 | 153(=470X(718/2208)) | 191 | 36481 | 238.4 |
自由度df =R-1, R为分类变量类型个数。在本案例中,分类变量是性别,有男、女两个类别,故R=2,于是自由度df=2-1=1,经查分布表,
,括号中的数字表示自由度。因为
值远大于
,故拒绝
,接受
,说明存活状况与性别显著相关。
- 独立性检验
独立性检验是对两个分类变量的分析。关心两者是否有关联。分析过程可以通过列联表的方式呈现,故此种分析被成为列联分析。
列联表:是将两个以上变量进行交叉分类的频数分布表。
独立性检验就是分析列联表中行变量和列变量是否相互独立。(也就是检验行变量和列变量之间是否存在依赖关系)
案例分析
一种原料来自三个不同地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下图,要求检验各个地区和原料等级之间是否存在依赖关系(a=0.05)。
:地区和原料等级之间是独立的
:地区和原料等级之间是不独立的
行 | 列 | |||||
1 | 1 | 52 | 45.36 | 6.64 | 44.09 | 0.97 |
1 | 2 | 64 | 52.64 | 11.36 | 129.05 | 2.45 |
1 | 3 | 24 | 42.00 | -18 | 324 | 7.71 |
2 | 1 | 60 | 55.40 | 4.60 | 21.16 | 0.38 |
2 | 2 | 59 | 64.30 | -5.3 | 28.09 | 0.44 |
2 | 3 | 52 | 51.30 | 0.7 | 0.49 | 0.01 |
3 | 1 | 50 | 61.24 | -11.24 | 126.34 | 2.06 |
3 | 2 | 65 | 71.06 | -6.06 | 36.72 | 0.52 |
3 | 3 | 74 | 56.70 | 17.30 | 299.29 | 5.28 |
的自由度=(R-1)(C-1)=(3-1)(3-1)=4
令a=0.05,查表知:
由于>
,故拒绝
,接受
,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。
(3)
利用分布对两个分类变量之间的相关性进行检验统计。
如果变量相互独立,说明它们之间没有联系;反之,则认为它们存在联系。
注意:如果变量之间存在联系,它们之间的相关程度有多大?有什么相关系数可以描述?
相关系数
- c系数