国家生物信息中心开发DNA甲基化芯片数据标准化方法—GMQN

过去十年来,由于DNA甲基化芯片技术的不断发展以及测序成本的快速下降,DNA甲基化芯片数据呈现爆发式增长。这些数据是表观基因组关联研究(Epigenome-Wide Association Studies,EWASNAR| 表观组关联分析数据库 - EWAS Data Hub)的宝贵资源,为基于大规模整合分析的EWAS研究提供了数据支撑。然而,在整合公共DNA甲基化芯片数据时,不得不面对两个棘手的问题。首先,公共数据样本量大且增长速度快,必须要考虑大数据整合中的N+1问题。其次,大多数公共数据没有提供原始数据。因此,无法获取control探针和OOB (Out Of Band)探针的信息,而这两类探针的信息是目前绝大多数DNA甲基化芯片标准化方法必须的。

为此,北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发了一种基于参考的高斯混合模型分位数标准化方法 (Gaussian Mixture Quantile Normalization, GMQN),该方法以被广泛使用的芯片内标准化方法SWAN和BMIQ为基础进一步对DNA甲基化芯片数据进行标准化,特别是去除批次效应。该方法以“GMQN: A Reference-Based Method for Correcting Batch Effects and Probe Bias in HumanMethylation BeadChip”为题于2022年1月在frontiers in genetics期刊上在线发表。

为了去除批次效应等偏差,我们首先需要找到这些偏差在数据中的表现形式。为此,我们对不同类型探针的信号值分布特征进行了探索。我们发现一类探针红绿信道的信号值都可以分解为两个高斯分布的叠加(图一 a, b, c, d),且这些高斯分布的拟合参数能够很好地区分批次(图一e)。利用这一特性,我们借鉴BMIQ的思想,对一类探针红绿信道的信号值分别拟合高斯混合分布,再将不同样本对应高斯分布的形状调整至相同以此降低批次效应和其他偏差。

 

文章剩余内容<<<<<<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值