chi-square test或称卡方检验

最新推荐文章于 2024-03-28 11:56:58 发布

hellochenlu

最新推荐文章于 2024-03-28 11:56:58 发布

阅读量1.5k

点赞数

分类专栏：数据挖掘

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

原文链接：http://www.cnblogs.com/emanlee/archive/2008/10/25/1319569.html

未全部转载

x2检验（chi-square test）或称卡方检验

x2检验（chi-square test）或称卡方检验，是一种用途较广的假设检验方法。可以分为成组比较（不配对资料）和个别比较（配对，或同一对象两种处理的比较）两类。

一、四格表资料的x2检验

例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者，结果如表20-11，问两种疗法有无差别？

表20-11 两种疗法治疗卵巢癌的疗效比较

组别	有效	无效	合计	有效率（%）
化疗组	19	24	43	44.2
化疗加放疗组	34	10	44	77.3
合计	53	34	87	60.9

表内用虚线隔开的这四个数据是整个表中的基本资料，其余数据均由此推算出来；这四格资料表就专称四格表（fourfold table），或称2行2列表（2×2 contingency table）从该资料算出的两种疗法有效率分别为44.2%和77.3%，两者的差别可能是抽样误差所致，亦可能是两种治疗有效率（总体率）确有所不同。这里可通过x2检验来区别其差异有无统计学意义，检验的基本公式为：

式中A为实际数，以上四格表的四个数据就是实际数。T为理论数，是根据检验假设推断出来的；即假设这两种卵巢癌治疗的有效率本无不同，差别仅是由抽样误差所致。这里可将两种疗法合计有效率作为理论上的有效率，即53/87=60.9%，以此为依据便可推算出四格表中相应的四格的理论数。兹以表20-11资料为例检验如下。

检验步骤：

1.建立检验假设：

H0：π1=π2

H1：π1≠π2

α=0.05

2.计算理论数（TRC），计算公式为：

TRC=nR.nc/n 公式（20.13）

式中TRC是表示第R行C列格子的理论数，nR为理论数同行的合计数，nC为与理论数同列的合计数，n为总例数。

第1行1列： 43×53/87=26.2

第1行2列： 43×34/87=16.8

第2行1列： 44×53/87=26.8

第2行2列： 4×34/87=17.2

以推算结果，可与原四项实际数并列成表20-12：

表20-12 两种疗法治疗卵巢癌的疗效比较

组别	有效	无效	合计
化疗组	19（26.2）	24（16.8）	43
化疗加放疗组	34（26.8）	10（17.2）	44
合计	53	34	87

因为上表每行和每列合计数都是固定的，所以只要用TRC式求得其中一项理论数（例如T1.1=26.2），则其余三项理论数都可用同行或同列合计数相减，直接求出，示范如下：

T1.1=26.2

T1.2=43-26.2=16.8

T2.1=53-26.2=26.8

T2.2=44-26.2=17.2

3.计算x2值按公式20.12代入

4.查x2值表求P值

在查表之前应知本题自由度。按x2检验的自由度v=（行数-1）（列数-1），则该题的自由度v=（2-1）（2-1）=1，查x2界值表（附表20-1），找到x20.001（1）=6.63，而本题x2=10.01即x2＞x20.001（1），P＜0.01，差异有高度统计学意义，按α=0.05水准，拒绝H0，可以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳。

通过实例计算，读者对卡方的基本公式有如下理解：若各理论数与相应实际数相差越小，x2值越小；如两者相同，则x2值必为零，而x2永远为正值。又因为每一对理论数和实际数都加入x2值中，分组越多，即格子数越多，x2值也会越大，因而每考虑x2值大小的意义时同时要考虑到格子数。因此自由度大时，x2的界值也相应增大。