过去十年来,由于DNA甲基化芯片技术的不断发展以及测序成本的快速下降,DNA甲基化芯片数据呈现爆发式增长。这些数据是表观基因组关联研究(Epigenome-Wide Association Studies,EWAS
,NAR| 表观组关联分析数据库 - EWAS Data Hub)的宝贵资源,为基于大规模整合分析的EWAS研究提供了数据支撑。然而,在整合公共DNA甲基化芯片数据时,不得不面对两个棘手的问题。首先,公共数据样本量大且增长速度快,必须要考虑大数据整合中的N+1问题。其次,大多数公共数据没有提供原始数据。因此,无法获取control
探针和OOB
(Out Of Band)探针的信息,而这两类探针的信息是目前绝大多数DNA甲基化芯片标准化方法必须的。
为此,北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发了一种基于参考的高斯混合模型分位数标准化方法 (Gaussian Mixture Quantile Normalization, GMQN
),该方法以被广泛使用的芯片内标准化方法SWAN和BMIQ为基础进一步对DNA甲基化芯片数据进行标准化,特别是去除批次效应。该方法以“GMQN: A Reference-Based Method for Correcting Batch Effects and Probe Bias in HumanMethylation BeadChip”为题于2022年1月在frontiers in genetics期刊上在线发表。
为了去除批次效应等偏差,我们首先需要找到这些偏差在数据中的表现形式。为此,我们对不同类型探针的信号值分布特征进行了探索。我们发现一类探针红绿信道的信号值都可以分解为两个高斯分布的叠加(图一 a, b, c, d
),且这些高斯分布的拟合参数能够很好地区分批次(图一e
)。利用这一特性,我们借鉴BMIQ
的思想,对一类探针红绿信道的信号值分别拟合高斯混合分布,再将不同样本对应高斯分布的形状调整至相同以此降低批次效应和其他偏差。