卡方检验

简要介绍 χ 2 \chi^2 χ2检验的两种用法。

一.列联表中的相关测量

同一批测量数据,可以按照不同的分类标准进行分类,从而从这些标准下的数据分布中挖掘出标准(变量)之间可能存在的相关关系。这称为交互分类

交互分类(Cross Classification):抽自某一总体的样本,同时按照两个或两个以上的标准进行分类。

交互分类的资料可以排成一个行、列交织的表,称为列联表。经典列联表如下表。

经济状况家庭规模合计
-大小-
高收入24446
中等收入321042
低收入10212
合计44 56100

可抽象为以下形式。

x 1 x_1 x1 x 2 x_2 x2 x j x_j xj x c x_c xc合计
y 1 y_1 y1 f 11 f_{11} f11 f 12 f_{12} f12 f 1 j f_{1j} f1j f 1 c f_{1c} f1c f 1 ⋅ f_{1 \cdot} f1
y 2 y_2 y2 f 21 f_{21} f21 f 22 f_{22} f22 f 2 j f_{2j} f2j f 2 c f_{2c} f2c f 2 ⋅ f_{2 \cdot} f2
y i y_i yi f i 1 f_{i1} fi1 f i 2 f_{i2} fi2 f i j f_{ij} fij f i c f_{ic} fic f i ⋅ f_{i \cdot} fi
y r y_r yr f r 1 f_{r1} fr1 f r 2 f_{r2} fr2 f r j f_{rj} frj f r c f_{rc} frc f r ⋅ f_{r \cdot} fr
合计 f ⋅ 1 f_{\cdot1} f1 f ⋅ 2 f_{\cdot2} f2 f ⋅ j f_{\cdot j} fj f ⋅ c f_{\cdot c} fc n n n

其中标准 X X X x j x_j xj 水平, j = 1 , … , c j=1,\dots,c j=1,,c。标准 Y Y Y y i y_i yi 水平, i = 1 , … , r i=1,\dots,r i=1,,r f i j f_{ij} fij 为频数,数据构成 r × c r\times c r×c 列联表。

1. 对称与非对称关系

一般来说,分类的标准 X X X Y Y Y之间没有因果关系。或者说,①不考察 X X X 影响 Y Y Y, 还是 Y Y Y 影响 X X X;② X 、 Y X、Y XY之间可以相互影响 。那么我们则把这种对等的关系称为对称关系。否则,若只存在一方面对另一方面的影响,则称为非对称关系。例如家庭规模和经济状况就是一组对称关系,而孩子的成绩和父母的教育程度则为非对称关系。对这种关系的认识关系到所做的统计分析是否存在意义。

2.相关性的 χ 2 \chi ^2 χ2检验

在数据中挖掘有用而有趣的信息,一般寻找变量之间的相关关系。 χ 2 \chi ^2 χ2检验通常适用于检验两个定类变量之间是否相关,但同样也可以用于定序变量。对交互分类表格给出的定类、定序变量之间是否独立的检验, χ 2 \chi ^2 χ2 检验是最有效果的。
首先建立假设组: H 0 : X 与 Y 独 立 H_0:X与Y独立 H0:XY H 1 : X 与 Y 不 独 立 H_1:X与Y不独立 H1XY
当 列 X X X与行 Y Y Y不相关(独立)时,根据 P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P(X=x,Y=y)=P(X=x)P(Y=y) P(X=x,Y=y)=P(X=x)P(Y=y)可有 ( i , j ) (i,j) (i,j)处的期望频率
e i j = n f i ⋅ n f ⋅ j n . e_{ij}=n\frac{f_{i\cdot}}{n}\frac{f_{\cdot j}}{n}. eij=nnfinfj.
若该处的实际频率等于独立条件下的期望频率,即 f i j = e i j ( i = 1 , … , r ; j = 1 , … , c ) f_{ij}=e_{ij}(i=1,\dots,r;j=1,\dots,c) fij=eij(i=1,,r;j=1,,c),则 H 0 H_0 H0假设成立。于是如果各处的实际频率与期望频率的离差越小,则越接近于独立。为防止正负抵消,采用差值的平方和,从而有了 χ 2 \chi^2 χ2检验中的 Q Q Q统计量: Q = ∑ i = 1 r ∑ j = 1 c ( f i j − e i j ) 2 e i j Q=\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(f_{ij}-e_{ij})^2}{e_{ij}} Q=i=1rj=1ceij(fijeij)2其近似服从自由度 d f = ( r − 1 ) ( c − 1 ) df=(r-1)(c-1) df=(r1)(c1) χ 2 \chi^2 χ2分布。

我们可以将计算的 Q Q Q值,和给定显著性水平下的临界值 χ α 2 \chi_{\alpha}^2 χα2比较。若 Q ⩾ χ α 2 Q\geqslant \chi^2_{\alpha} Qχα2,拒绝原假设, X X X Y Y Y相关;反之,接受原假设。

二.单样本非参数的拟合优度检验

类似于列联表中的相关性检验, χ 2 \chi^2 χ2可用于单样本非参数检验。

χ 2 \chi^2 χ2检验(Chi-Square Goodness-of-Fit Test)属于拟合优度检验,可用于回答以下问题:观察频数和某种原则下的期望频数是否有显著差异;观察的比例与所期望的比例是否有显著性差异;样本取自某种类型的总体的假定是否合理等。

当一个事件可能有两个以上,如 k k k个结果出现时,采用 χ 2 \chi^2 χ2判定其观察频数是否显著地背离期望是最合适的。我们设样本分为 k k k类,每类实际观察频数为 f 1 , f 2 , … , f k f_1,f_2,\dots,f_k f1,f2,,fk,对应期望为 e 1 , e 2 , … , e k e_1,e_2,\dots,e_k e1,e2,,ek。则有 Q Q Q统计量公式: Q = ∑ i = 1 k ( f i − e i ) 2 e i . Q=\sum_{i=1}^{k}\frac{(f_i-e_i)^2}{e_i}. Q=i=1kei(fiei)2. Q = 0 Q=0 Q=0,则表明数据完全拟合期望。值得注意的是,当某个分类的期望频数小于5时,应该与邻近组合并。要保证每一种分类的期望频数都大于5,否则检验结果的有效性会大打折扣。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值