2×3卡方检验prism_戏说卡方检验

可以这样说,卡方检验是临床科研中最常用的统计学方法,没有之一。当然,卡方检验并不仅仅是我们常见的四格卡方检验形式,还有配对卡方检验、R×C列表卡方检验、分层卡方检验等。其中R×C卡方检验又分为双向无序、单项有序、双向有序。貌似简单的卡方检验细究起来其实并不简单,如果我们没有把它们之间的逻辑关系理清楚往往就会出现误学误用。下面我们不妨结合一些科研案例由浅入深解剖卡方检验,尽量避开复杂的数理理论,让大家学之能用、用之能胜。1        入门篇-----卡方检验它是用来做什么的?
如果要比较男性组和女性组之间身高或者体重的差异有没有统计学意义,用什么?大家都知道t检验,因为身高或者体重它们是计量资料,而且是连续型变量,如果满足正态、等方差这个两个前提,两组间就可以用独立t检验,这个大家再熟悉知不过。那么如果相比较男性组和女性组之间治疗有效率差别有没统计学意义,用什么?也很简单,这个是计数资料,不是连续型的,有效的人数要么是七个,要么是八个,不可能出现七个半,另外有效人数除以整体人数就是有效率,率的比较当然用卡方检验,这个大家也很熟悉。
好的,一起来看下面一道简单的例题:某药在男性组组和女性组治疗有效和无效的人数如表1所示,问男性组和女性组治疗有效率有没差别?表1:某药物在男性组和女性组治疗效果的差别

效果
组别  
有效无效
男性组a=99  (实际频数)b=5 (实际值频数)
女性组c=75  (实际频数)d=21 (实际频数)

注意,上面的题目我给大家挖了一个坑,如果你没注意,可能就栽进去了。什么意思?我们来看,从表1我们很容易看出:男性组有效率为95.19%,女性组有效率78.13%,肯定是有差别的,这个毫无疑问。也就是说对于我们一个小小的实验组做出来治疗率,不可能完全一模一样,差别几乎是绝对存在的,一点也不奇怪,没差别才叫奇怪。但是我们关心不是这个实验组的有效率是否有差别,我们关心的是我们这个差别的结论能否推广到整体,这样我们的科研的课题才是一个高尚的的课题,一个纯粹的课题,一个有道德的课题,一个脱离了低级趣味,一个对人民有益的课题,对吧。所以这个题目应该怎么问?应该问:两组间有效率差别是否有统计学意义。差别有统计学意义了才能推广到整体,这就是卡方检验要解决的问题。怎么解决?它用卡方值换算出P值,然后根据P值下结论,那么我们进入下一个问题:2 卡方检验的卡方值是个什么东西?
前面我们说过了,男性组有效率为95.19%,女性组有效率78.13%,我们可以下结论在本实验组男女治疗有效率有差别,但还不能说差别有统计学意义,因为有的人会说这个差别会不会是抽样误差引起来的?该卡方检验上场了。卡方检验说这几个数字99、5、75、21 都是你实际的数值,也就是实际频数,如果其实它们没差别是由于抽样误差导致的假象,那理论上这些数字(理论频数)应该是多少?我先跟据你的实际频数来推算一下,如表2,它们应该是90.5、13.5、83.5、12.5,怎么计算下一段马上会讲到。表2:某药物在男性组和女性组治疗实际频数

效果
组别  
有效无效
男性组a`=90.5  (实际频数)b`=13.5 (实际值频数)
女性组c`=83.5  (实际频数)d`= 12.5 (实际频数)

大家有兴趣可以自己动手算算,从横向看 90.5:13.5 和83.5:12.5结果几乎是一样的,从纵向上看90.5:83.5 与 13.5:12.5 结果也几乎是一样的,很完美吧,它是理论频数嘛。我们卡方检验就是要看看所有理论频数和所有实际频数之间差别大不大,如图1。3a4f2cbd285c4287cab72d0391991e78.png
 图1  实际频数和理论频数之间差距
当然图1只是一种感性的理解,而后统计学家把它整理成严谨的计算公式表达为:x2=(a-a`)2/a` + (b-b`)2/b` + (c-c`)2/c` + (d-d`)2/d`。a、b、c、d代实际论频数,a`、b`、c`、d` 代表从这些实际频数推算出的理论频数。R×C的卡方检验通用公式为x2=∑(A-T)2/T,A代表理论频数,T代表实际频数。四格卡方公式可以简化为x2=(ac-bd)2n/(a+b)(c+d)(a+c)(b+d),n代表总例数,即a+b+c+d。这些公式个大家记不住都不要紧,电脑时代,这都不是个事儿,学会卡方SPSS卡方检验操作,点一下鼠标结果就出来了。关键是大家要记住这个卡方值x2所代表就是理论频数和实际频数差别,x2越大那么二者差别就越大。当二者差别越大那么由于抽样误差这种偶然因素导致它们没有差别的概率P值就越小。那这个P值要小于多少,我们下结论才比较有自信呢?统计学上一般认为P小于5%,好比两个选手打牌,乙方打100场才赢甲方5场,我们认为甲方的打牌技术要比乙方强,乙方赢的那5场完全是因为他抓了一手好牌。好的明白了卡方值是怎么来的,对于卡方检验我们已经有了一个大体的认识,为了进一步理解下面要补充一些小的细节问题。3 理论频数是怎么来的,为什么卡方值越大P越小,什么是卡方检验的自由度?
图2:由理论频数计算实际频数示意图bcd430a9bc4273871cd773ba0baf42df.png
第一个问题:这个理论频数是咋算出来的?我们直观了解一下,如图2的箭头所示:理论频数a`=(174×104 )/200=90.5, 理论频数d`=(26×96 )/200=12.5,我想不用再说大家也知道b`,c` 如何计算,理解就行,公式不需要记,电脑程序都帮你记着呢。图3:四格卡方检验曲线下面积分布示意图b61817f22fd25725e2a868918c942bc7.png
第二个问题:为什么卡方值越大P值越小?如图2,四格卡方自由度等于1,x2分布曲线如图2,比如x2=10,P值是指 10以外红色部分占整个曲线下面积的多少,比值越小概率越低。
第三个问题:为什么四格卡方表格自由度是1?我们先举个例子,门外有张三、李四、王五3个人,只要进来任意来个人我就知道第三个人叫什么,只有这两个人有自由,一旦这两个定了,第三个人是谁就被人知道了,所以自由度是2。这个四格表只要你填上任何一个比如c,那么c对应的a位置就跑不了,而a对应b也跑不了,b对应d也固定了,只有第一个位置填什么是让你自由选择的,自由度就是1。也有的书解释为在四格表周围四个数之和固定的情况下只有一个格子可以让你自由取自,道理跟前面讲的差不多。R×C的卡方表自由度计算公式是(R-1)×(C-1),R代表行,C代表列。  

本文转载丁香园四叶虫原创文章,如有侵权联系立即删除。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值