MRCNN: a deep learning model for regression of genome-wide DNA methylation
Motivation
DNA甲基化的过程是在DNA甲基转移酶(Dnmt)作用下向胞嘧啶选择性地添加一个甲基以形成5-胞嘧啶。
在哺乳动物基因组中,70-80%的CpG二核苷酸都有甲基化现象。
CpG甲基化对基因表达等方面有影响。
全基因组DNA甲基化的测定是研究其影响的基础。
Related Work
-
WGBS:可以实现基因组甲基化模式的系统级分析。但是具有以下缺点:昂贵;受到亚硫酸氢盐转化的基因组的低序列复杂度和降低的GC含量的限制;不稳定的环境和不同的平台使预测更加困难。
CpG位点特异性甲基化水平的预测对于全基因组的甲基化分析至关重要。
-
CGI:着重于预测特定基因组区域的甲基化模式。
-
大多数方法都需要结合大量信息,比如预定义特征。但甲基化位点的数量很大,很难轻松获得相应的预测特征。这导致在做预测之前需要做大量的人工注释和数据预处理。
Method
MRCNN:
- 基于多层卷积神经网络模型,可以在单碱基情况下实现CpG位点的甲基化预测。
- 由于连续的MSE(均方误差)损失函数,该方法可以实现