分类数据分析

\chi ^{2}卡方检验的应用主要表现在两个方面:拟合优度检验独立性检验

列联表是进行独立性检验的重要工具。

统计数据的类型分别有:分类数据、顺序数据、数值型数据。

分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述调查对象的不同特征。

注意:分类数据的结果是频数,\chi ^{2}卡方检验是对分类数据的频数进行分析的统计方法。

\chi ^{2}卡方统计量应用

\chi ^{2}卡方统计量可以用于测定两个分类变量之间的相关程度。

若用f_{0}表示观察值频数,用f_{e}表示期望频数,则\chi ^{2}卡方统计量可以写为:

\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}

\chi ^{2}卡方统计量有以下特征:

  1. \chi ^{2}\geq 0,因为它是对平方结果的汇总;
  2. \chi ^{2}卡方统计量的分布与自由度有关;
  3. \chi ^{2}卡方统计量描述了观察值和期望值的接近程度;

两者越接近,即的绝对值越小,计算出的\chi ^{2}值就越小;反之,的绝对值越大,计算出的\chi ^{2}值就越大。

注意\chi ^{2}检验正是通过对\chi ^{2}的计算结果与\chi ^{2}分布中的临界值进行比较,做出是否拒绝原假设的统计决策。

\chi ^{2}分布与自由度的关系

如上图所示,自由度越小,分布就越向左边倾斜,随着自由度的增加,\chi ^{2}分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度继续增大,\chi ^{2}分布将趋近于对称的正态分布

(2)利用\chi ^{2}统计量,可以对分类数据进行拟合优度检验和独立性检验

  • 拟合优度检验

拟合优度检验是对一个分类变量的检验。

拟合优度检验是用\chi ^{2}统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。

案例分析

1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共有718人,其中男性374人,女性344人,以a=0.1的显著性水平检验存活状况性别是否有关。

在本案例中需要判断观察频数与期望频数是否一致。

H_{0}:观察品数与期望频数一致

H_{1}:观察频数与期望频数不一致

\chi ^{2}卡方统计量计算表
  步骤一步骤二步骤三步骤四
f_{0}f_{e}f_{0} -f_{e}\left ( ^{f_{0}-f_{e}} \right )^{2}\left ( ^{f_{0}-f_{e}} \right )^{2}/f_{e}\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}=303
374565(=1738X(718/2208))-1913648164.6
344153(=470X(718/2208))19136481238.4

 

 

 

 

 

 

自由度df =R-1, R为分类变量类型个数。在本案例中,分类变量是性别,有男、女两个类别,故R=2,于是自由度df=2-1=1,经查\chi ^{2}分布表,\chi _{0.1}^{2}\left ( 1 \right )= 2.706,括号中的数字表示自由度。因为\chi ^{2}值远大于\chi _{0.1}^{2},故拒绝H_{0},接受H_{1},说明存活状况与性别显著相关

  • 独立性检验

独立性检验是对两个分类变量的分析。关心两者是否有关联。分析过程可以通过列联表的方式呈现,故此种分析被成为列联分析。

列联表:是将两个以上变量进行交叉分类的频数分布表

独立性检验就是分析列联表中行变量和列变量是否相互独立。(也就是检验行变量和列变量之间是否存在依赖关系)

案例分析

一种原料来自三个不同地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下图,要求检验各个地区和原料等级之间是否存在依赖关系(a=0.05)。

H_{0}:地区和原料等级之间是独立的

H_{1}:地区和原料等级之间是不独立的

3x3列联表的期望值及 \chi ^{2}计算结果
f_{0}f_{e}f_{0} -f_{e}\left ( ^{f_{0}-f_{e}} \right )^{2}\left ( ^{f_{0}-f_{e}} \right )^{2}/f_{e}
115245.366.6444.090.97
126452.6411.36129.052.45
1324

42.00

-183247.71
216055.404.6021.160.38
225964.30-5.328.090.44
235251.300.70.490.01
315061.24-11.24126.342.06
326571.06-6.0636.720.52
337456.7017.30299.295.28
\chi ^{2}=\sum \frac{\left ( f_{0} -f_{e}\right )^{2}}{f_{e}}=19.82

 

 

 

 

 

 

 

 

 

 

 

 

 

\chi ^{2}的自由度=(R-1)(C-1)=(3-1)(3-1)=4

令a=0.05,查表知:\chi _{0.05}^{2}\left ( 4\right )= 9.488

由于\chi ^{2}>\chi _{0.05}^{2}\left ( 4\right ),故拒绝H_{0},接受H_{1},即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。

(3)

利用\chi ^{2}分布对两个分类变量之间的相关性进行检验统计。

如果变量相互独立,说明它们之间没有联系;反之,则认为它们存在联系。

注意:如果变量之间存在联系,它们之间的相关程度有多大?有什么相关系数可以描述?

  • \varphi相关系数    \varphi = \sqrt{\chi ^{2}/n}
  • c系数 

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值