分层数据:Cochran-Mantel-Haenszel (CMH)检验在关联分析中的应用

1. 概述

Cochran-Mantel-Haenszel, 简称CMH检验,是研究两个我们关注的分类变量之间关联性的一种检验方法。但有时数据除了我们研究的变量外,还混杂或隐含了其它的变量,如果将这些变量纳入分析中,则有可能得出完全不同的结论,著名的Simpson悖论就是这个问题的典型案例。

换句话说,在2 x 2 表格数据的基础上,引入了第三个分类变量,称之为混杂变量。混杂变量的引入使得该检验可以用于 分析分层样本,作为生物统计学领域的一种常用技术,该检验常用于疾病对照研究。

美国法律学家辛普森(Simpson),在研究美国佛罗里达州的犯罪问题时发现,白人杀手被处死刑的比率要高于黑人杀手;但如果把被害人的肤色也考虑进来时,他发现,不论被害者是白人还是黑人,白人杀手被处死刑的比率要低于黑人杀手,这就得出了矛盾的结论,他认为这是个悖论,故此类现象统称为“Simpson悖论”。
在这里插入图片描述
从表中可以看出,黑人凶手被判处死刑的比率低于白人凶手。但是如果加上被害人的肤色,则有更详细的数据。
在这里插入图片描述
加入被害人信息后,不论被害人是白人或黑人,白人凶手被处死的比率都低于黑人。形成这种悖论的原因是,被害人是白人时凶手被处死的比率要高于被害人是黑人时凶手被处死的比率。由于白人凶手杀害的更多的是白人,因此造成“白人杀手被处死刑的比率要高于黑人杀手”。辛普森所指出的问题是非常重要的一个概念,但他的原始数列并不具有统计意义上的显著性(卡方检验不显著)。

对于这种分层的列联表,通常可以各层单独做卡方检验。但除此之外,我们还想知道在数据分层条件下,总体的状态如何,此时分层的作用就像是试验设计中的区组化,虽然分层可能对卡方检验结果有影响,但我们并不关注它,而是考虑排除其影响后卡方检验的显著性。这种方法就是Cochran-Mantel-Haenszel检验,简称CMH检验或MHC检验

2. 第一个示例:螺栓合格率

在这个案例中,书(《六西格玛管理统计指南》)中已经得出结论:如果不考虑将螺栓细分为螺钉和螺母,则两个车间的不合格率存在显著差异,且B车间的不合格率更低一些;但数据细化以后,以螺钉和螺母作为层,则看到无论是哪一种产品,都是车间A的不合格率更低。两种检验的结论完全不同。下一步我们还想采用CMH检验来看看在数据有分层的情况下,两个车间的不合格率的差异如何。
在这里插入图片描述
这个表格包含两个四格表,将其一般化,我们得到k层四格表。
在这里插入图片描述
其中i=1,…,k。

优势比 概念

首先引入一个新的概念,优势比(Odds Ratio,OR),又称比值比、胜算比等,这个名称将来在Logistic回归中会经常用到。
所谓Odds,就是每一个分组的胜率(或败率,取决于A代表的是成功还是失败),即:
O d d s ( X 1 ) = A B Odds(X1) = \frac{A}{B} Odds(X1)=BA
O d d s ( X 2 ) = C D Odds(X2) = \frac{C}{D} Odds(X2)=DC
而Odds Ratio就是:
O R = O d d s ( X 1 ) O d d s ( X 2 ) = A B C D = A ∗ D B ∗ C OR = \frac{Odds(X1)}{Odds(X2)}=\frac{\frac{A}{B}}{\frac{C}{D}}=\frac{A*D}{B*C} OR=Odds(X2)Odds(X1)=DCBA=BCAD

  • 若OR=1,则X1和X2的胜率(或败率)没有差别;
  • 若OR>1,则X1的胜率(或败率)高于X2;
  • 若OR<1,则X1的胜率(或败率)低于X2。

对于分层的k个四格表,需要计算一个公共的优势比。
在这里插入图片描述

1. 建立假设

我们用CMH检验来验证这个公共的优势比的显著性,其假设为:

H0:OR=1,Ha:OR≠1。

2. 计算检验统计量

建立检验统计量,这里直接给出结果:

在这里插入图片描述

  • 其中减0.5为连续性校正。这个统计量服从自由度为1的卡方分布 。

基于上述螺栓示例,计算优势比:
在这里插入图片描述
检验统计量为:
在这里插入图片描述
自由度为1的卡方分布计算出p值为0.0000139,因此拒绝原假设。表格中Ai为不合格数,因此OR代表的是不合格比值之比,因其小于1,因此我们可以得出结论,总的来说,车间A的不合格率要低于车间B

第二个示例:流行病学的研究

在这里插入图片描述
在一次研究口服避孕药与心肌梗塞发病关系的回顾性调查中,共调查了1976名妇女,资料如下表:
在这里插入图片描述
根据表中数据计算出的卡方值为5.84,自由度为1,显著性水平为0.05的卡方分布临界值为3.84,因此拒绝原假设。认为病例组口服避孕药者所占的比例大于对照组(注意强调的是比例)。

病因的研究是非常复杂的,会受到很多混杂的因素影响,如果在研究中简单地汇总出四格表,则有可能会掺入混杂的因素,造成判断的错误。

在这个案例中,一个很明显的混杂因素在于不同年龄组心肌梗塞发病机会不等,同时年龄因素也可能影响研究对象对避孕药的暴露程度,故在资料分析中应把年龄看作一个可能影响研究结果的混杂因素。按年龄分层后,资料的分布如下表。
在这里插入图片描述
忽略计算过程,得出OR=3.97,卡方值为34.7(作连续性校正后为32.79)。消除年龄因素的影响后,病例组中口服避孕药所占的比例大约相当于对照组的4倍。由于CMH降低了混杂因素造成的偏性,显著地增加了资料的说服力,使口服避孕药与心肌梗塞发病间的联系更加明确了

在应用CMH检验时,需要注意几个问题:

  • 1.CMH检验不假定因子之间的交互作用;
  • 2.样本量要比较大。

第三个示例:R中的实现CMH检验

研究不同性别和候选人投票结果之间的关联,得到如下所示的2 x 2的表格:
在这里插入图片描述
这里有两个二分类变量,第一个是投票者的性别,第二个是候选人A和B。考虑到所有的投票者本身存在分层现象,来自3个不同的州,针对不同的州重新统计,得到如下的结果:
在这里插入图片描述
上述例子中,投票者出现了分层现象,来自3个不同的州。如果不考虑这个因素,直接统计性别和候选人的频数分布,采用卡方或者费舍尔精确检验来进行分析,即使得到了阳性的结果,也无法确定是不同性别之间真实存在投票的差异还是由于来自不同的州导致了这样的差异

由于投票者的分层现象,直接采用卡方或者费舍尔精确检验进行分析是不太合适的。在上述模型中,投票者的分层就是一个典型的混杂变量,对于这样的数据可以采用CMH检验进行分析。

CMH检验针对每个分层统计2X2的表格,计算每一层的odd ratio值,然后在进行加权,计算公共的odd ratio, 每一层用 ** i ** 表示,统计的2X2表格数据如下:
在这里插入图片描述
common odd raio的计算公式如下:
在这里插入图片描述
从公式可以看出,利用每层的样本总数进行了加权,用于CMH分析的数据要求样本量比较大,以保证每层的频数表格中不会出现0的情况。该检验的统计量公式如下:
在这里插入图片描述
服从自由度为1的卡方分布,上述数据在R中进行CMH检验的代码如下:
在这里插入图片描述
pvalue值大于0.05. 说明性别和候选者之间没有关联。

如果直接对总体结果进行卡方或者费舍尔精确检验的话,得到的结论相反,计算过程如下
在这里插入图片描述
从这个数据可以看出,对于分层样本,有必要进行CMH检验。需要说明的是,CMH检验假设所有分层的odd raio值相同,可以通过Breslow-Day test来进行检验,代码如下:
在这里插入图片描述
pvalue值大于0.05,说明不满足odd ratio齐性。当然对于分层数据,除了CMH检验外,逻辑回归也是一个很好的解决方法,而且更加通用,可以将混杂变量当做回归分析中的协变量来进行处理。

  • 19
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值