GWAS研究中case和control的比例是有讲究的?

GWAS研究中,表型分两种。第一种是线性的表型,如果身高、体重、智力等;第二种是二元的表型,比如患病和未患病,即通常所说的case和control。对于表型是线性的样本来说,是不存在case和control比例不平衡的情况的,但是对于表型是二元的样本,比如疾病和对照组(健康人群),case和control比例失衡,可能会出现N多的假阳性结果。具体看看下面的例子。

 

例子1:case和control比例在稍微正常的情况下,比如冠心病(coronaryartery disease,case:control =1:12, N = 408,458),此时,用什么模型计算关联分析结果都OK.

下面分别用三个不同算法(BOLT-LMM, SAIGE-NoSPA 和 SAIGE)计算的GWAS结果,从图下可以看出,当case和control的数量比例不是严重失衡的情况下,这个时候用哪种方法结果都没有区别。

 

例子2:case和control比例在比较失衡的情况下,比如结直肠癌 (colorectal cancer , case:control = 1:84, N = 387,318),此时,BOLT-LMM和SAIGE-NoSPA显然出现了很多假阳性位点,而SAIGE模型下的GWAS结果则比较正常

 

 

 

例子3:case和control比例在严重失衡的情况下,比如青光眼(glaucoma, case:control = 1:89, N = 402,223),此时,BOLT-LMM和SAIGE-NoSPA显然出现了很多假阳性位点,而SAIGE模型下的GWAS结果则比较正常。

 

 

例子4:case和control比例在极其严重失衡的情况下,比如甲状腺癌(thyroid cancer, case:control = 1:1,138, N = 407,757),此时,BOLT-LMM和SAIGE-NoSPA显然出现了非常多的假阳性位点,而SAIGE模型下的GWAS结果则比较正常。

 

综上,说了这么多,是想告诉大家当手头的case和control比例差别比较悬殊的时候,不要一上来就跑GWAS,而是先考虑一下你的样本适合的模型。像这篇文章里的SAIGE模型就很适合case和control比例严重失衡的情况。

 

 

SAIGE的具体用法请参照:

https://github.com/weizhouUMICH/SAIGE

 

图片出处及参考文献:https://www.nature.com/articles/s41588-018-0184-y

转载于:https://www.cnblogs.com/chenwenyan/p/10621131.html

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值