引言
遗传学的研究成功地找到了很多致病突变体,这些突变体是指染色体上的变异位点。GWAS(全基因组关联分析)试图找到染色体上的变异位点,并研究这些变异位点与疾病或其它性状的关联。
GWAS常用的方法是回归分析。回归分析的一个假设是,数据是独立分布的(identically and independently distributed (i.i.d.))。实际上,很多个体可能有远缘关系,个体间的这种亲缘关系会给关联分析带来困难。当个体间存在亲缘关系的时候,会导致关联分析出现假阳性的结果。
现在有不同的计算方法在回归分析中考虑群体结构的影响,这篇小文探索了关联分析中假阳性的来源。
常规GWAS
关联分析的目标是寻找snp和性状之间的关系。Fig 1a中显示某个snp位点和血压的关系,可以看到红色标示出的C位点与高血压有明显的关系。
为了研究某个snp位点与某个性状的关联在统计上是否显著,我们有两个假设。第一个假设是H0假设,该假设也被称为null hypothesis,它认为snp和性状没有关联,也即是说,性状y等于总体平均与环境因素的加和。如果没有其它的信息,我们认为H0假设是正确的,也就是说某个snp并不影响性状,如Fig 1b所示。
Fig 1.
第二个假设是H1假设,该假设认为snp和性状存在关系,也就是说当存在某个snp的时候,某个性状或某个疾病会倾向于发生在该个体身上。如Fig 1c所示,该公式中的β是指该snp对性状影响的大小,也就是说, β越大,该snp对性状的影响越大,在文献中经常把 β 称作effect size。如果H1假设中的拟合达到一定