Biobank genetic data探析(二)——Imputaion
1. 什么是imputation?
Imputation即为“补全”,初次接触到这个概念是利用scRNA-seq数据补全空间转录组数据,即利用计算方法解决空转检测到的mRNA类别少的问题。而在GWAS当中,则是利用reference数据集,补全那些芯片中没有检测到的variants。如UKBB所述,Affymatrix Axiom芯片只能测约80万个SNPs,而经imputation后我们实际能获得~96 million SNPs信息。
而作为reference的数据集,一个是 1000 Genomes phase 3 dataset,主要用以解决非欧洲祖籍人群的imputation;一个则是Haplotype Reference Consortium,为UKBB imputation主要的参考数据集。
再进一步深入之前,我们需要弄清楚genotype(基因型)与haplotype(单体型)的区别:基因型即为染色体单个位点的不同导致的形状变化,我们可以理解为一个genotype call就是一个SNP(此处包含INDEL);而单体型则是一组SNPs,它们通常在同一个染色体上的不同位点,具有强的连锁不平衡性,是从父母亲直接继承下来的一套遗传信息,彼此之间有你就有我。
而著名的HapMap计划就是去发现人类基因组中这些成套的SNPs(即单体型),而每个单体型也有一些marker SNPs