论文解读:iDNA-ABT:用于检测DNA甲基化的先进深度学习模型,具有自适应特征和转导信息最大化

iDNA-ABT: advanced deep learning model for detecting DNA methylation with adaptive features and transductive information maximization

期刊:Bioinformatics

论文出处:iDNA-ABT: advanced deep learning model for detecting DNA methylation with adaptive features and transductive information maximization | Bioinformatics | Oxford Academic

代码链接:GitHub - YUYING07/iDNA_ABT: python codes for iDNA-ABT:advanced deep learning model for detecting DNA methylation with adaptive features and transductive information maximization

背景

DNA甲基化在调控转录的表观遗传修饰中起着重要作用,从而影响基因表达。目前研究较多的DNA甲基化类型有三种,分别是n6 -甲基腺嘌呤(6mA)、5-羟甲基胞嘧啶(5hmC)和n4 -甲基胞嘧啶(4mC)。6mA是一种甲基化修饰的碱基,广泛存在于原核生物中,主要在宿主防御系统中发挥作用,5hmC是在5-甲基胞嘧啶(5mC)去甲基化过程中产生的,并被发现与神经系统发育和肿瘤发生有关,4mC在控制DNA复制、区分自身和非自身DNA、细胞周期、纠正DNA复制错误和基因表达水平等方面具有多种功能。

数据集

在本研究中,我们使用iDNA-MS最初提出的基准数据集。该数据集包括17个数据集,涵盖了不同的甲基化类型和物种。根据甲基化类型,一般可将其分为三大类,包括5hmC、6mA和4mC。

模型框架

 iDNA-ABT的框架。iDNA-ABT由三个主要模块组成:(A)自适应嵌入模块,通过反向传播进行调整,并关注token_embed和pos_embed;(B)编码模块输出,通过多头注意机制表示DNA;(C)由多个神经网络层构建的分类模块,将DNA的表征转化为特定类别的响应概率分布。最后,根据TIM损耗对整个模型进行了逆向运算,并给出了分类结果

预测过程描述如下:在自适应嵌入模型中,我们首先将特定的位置嵌入和标记嵌入作为初始值。然后,在模块B中,我们将嵌入信息输入BERT中,学习输出特征向量。最后,我们利用输出向量来表示整个序列,得到模块c中特定类的响应概率分布。值得注意的是,我们的自适应嵌入会随着反向传播不断更新,我们使用的是TIM损耗而不是标准的交叉熵损耗。

自适应嵌入模块

在自适应嵌入模块中,我们根据查找表和字母在整个序列中的位置,将一个特定的随机初始化向量相加,将四个核苷酸字母中的每一个映射到一个向量,然后在模型训练过程中,每个向量根据带有反向传播的任务进行自适应调整。对嵌入的描述如下:

编码模块

编码器层的基本模块是编码器块,编码器块根据BERT从变压器的编码器派生而来。每个编码器块包括一个多头注意机构,一个前馈网络和两个跳过连接。多头注意由几种自我注意机制组成,以捕获同一序列中不同类型的内部关联。自我注意的数学描述如下:

 多头注意的数学描述如下:

 

 

分类模块 

 在分类模块中,我们将' [CLS] '的输出向量输入到基于神经网络的鉴别器中,以计算序列被预测为真实DNA甲基化位点的概率。在数据预处理过程中,将作为学习到的特征向量的特殊标记‘[CLS]’插入到每个序列的第一个位置,得到整个序列的表示形式。

分类模块的数学描述如下:

 传感器信息最大化损失(Transductive information maximization loss)

TIM损失集成了标准的交叉熵损失和经验加权互信息,利用TIM损失的想法来自于少镜头学习的转换信息最大化(Boudiaf等,2020)。训练集中的损耗使用TIM损耗。这里,我们让Q呈现训练集。分类序列及其潜在标签之间的经验加权互信息,在查询原始特征H(Y_{Q}|X_{Q})的前提下,综合了经验标签边际熵H(Y_{Q})和标签条件熵的经验估计。

 条件熵H(Y_{Q}|X_{Q})鼓励模型通过最小化未标记序列后验的不确定性来产生预测。然而,它的优化可以很容易地将所有序列映射到单个类。因此,标签-边际熵H(Y_{Q})通过鼓励标签的边际分布均匀,避免了之前仅最小化条件熵时得到的问题。

 互信息的数学描述如下:

 传感器信息最大化(TIM)损失如下:

 其中,如果序列属于k类,则yik = 1,否则yik = 0。非负超参数k和a在我们所有的实验中都固定为k = a = 1。

性能指标

结果 

 1.iDNA-ABT与其他现有方法的性能比较

为了衡量我们提出的iDNA-ABT的有效性,我们评估并比较了其他现有的方法,包括iDNAMS, sNNRice6mA和Deeptorrent。值得注意的是,我们主要与DNA- ms进行比较,因为它是唯一的通用的最新(SOTA)预测器,可以预测各种DNA甲基化类型。

此外,我们还将其与我们方法的变体iDNA-AB进行了比较。iDNA-ABT和iDNA-AB的唯一区别是前者引入了额外的TIM损失。

iDNA-ABT的性能优于iDNA-AB。与iDNAAB相比,iDNA-ABT的MCC平均提高2.93%。其中,iDNA-ABT在4mC_C中增加了20.97% 在 6mA_R增加了9.47%。在6mA_C中占2.83%。4mC_S.cerevisiae为2.38%。其中大多数是小数据集。另外,iDNA-ABT的平均ACC、SP、SN分别比iDNA-AB高1.5%、2.08%和0.9%。这表明,与原有的交叉熵损失相比,我们模型中新引入的额外TIM损失可以改善模型结果。这说明,利用互信息学习数据本身的分布情况,可以在一定程度上提高特征表示能力。

其次,我们还将我们的模型与之前最先进的预测器iDNA-MS进行了评估和比较。我们在所有17个数据集上取得了更好的总体性能。4mC_C中,iDNA-ABT的MCC比iDNA-MS约高5.76-19.97%。4mc_toolypocladium, 6mA_C在4mC_F .vesca和6mA_A. ms等10个数据集中,与iDNA-MS相比高1.85-4.64%。6mA_ C.equisetifolia;6ma_h,6mA_ R.chinensis, 6mA_S,6mA_toolypocladium, 6mA_ T,6mA_Xoc BLS256。在其余数据集中,我们的MCC值增加了约1%,或与iDNA-MS相当。总的来说,我们的模型平均的整体MCC增加了3.93%。同样,总体ACC、SN、SP、F1、AUC分别比iDNA-MS高1.97%、1.69%、2.25%、1.64%、0.4%。

第三,为了进一步证明我们模型的有效性,我们还在中比较了Deeptorrent和sNNRice6mA的深度学习模型。由于本文的模型是一个深度学习模型,所以我们也选择了两个深度学习模型进行比较,分别是4mC检测器和6mA检测器。

为了保证实验的公平性,在训练集上训练两个模型,并在独立测试集上进行评估,这两种方法都在数据集部分提出。与sNNRice6mA相比,我们在所有17个分类中表现更好,MCC值在0.7% ~ 17.06%之间。总体而言,模型的平均ACC、SN、SP、AUC、F1、MCC分别比sNNRice6mA提高了3.84%、2.15%、5.54%、2.16%、3.54%和7.69%。

此外,iDNA-ABT在17个分类中几乎所有指标都超过了DeepTorrent,在4mC_C中MCC值高于7%。4mc_toolypocladium, 6mA_C、6mA_D,6 mA_R。6mA_toolypocladium和6mA_Xoc BLS256。模型分别提高了平均ACC、SN、SP、F1、AUC、MCC 4.3%、5.94%、2.71%、4.87%、3.02%和8.03%。

第四,为了更完整地比较我们的预测因子,我们还比较了4mC_S中五个预测因子的ROC曲线和PR曲线。4mC_F, 5hmC_H,5 hmC_M,6mA_toolypocladium和6mA_C具体结果见补充表S2。从图3A-F可以看出,与iDNA-MS、Deeptorrent、sNNRice6mA三种方法相比,我们的预测器表现相对更好,尤其是Deeptorrent, 6ma_toolypocladium和6mA_C上的AUC和AP值提高了0.08%-0.09%。equisetifolia。它也像以前的SOTA iDNA-MS和更好的6ma_toolypocladium。

然而,5hmC数据集是分布良好的,因此在分类上没有更大的差距。可以看出,我们模型的AUC和PR值都大大优于iDNA-AB。特别是在4mC_S中。iDNA-ABT (AUC = 0.754, AP = 0.748)显著优于iDNA-AB (AUC =0.736, AP = 0.726)。

2.自适应嵌入与六种手工特征编码的性能比较

我们分别在模型中输入六种特征编码来验证自适应嵌入的有效性。值得注意的是,自适应嵌入不涉及训练和测试。我们根据iLearn选择了核酸组成(NAC)、二进制编码(binary)、核苷酸化学性质(NCP)、三核苷酸电子-离子相互作用伪势(EIIP)、二核苷酸组成(DNC)和累计核苷酸频率(ANF) 6种常见的特征编码。

为了更直观地看到其他特征和iDNA-ABT学习的效果,我们将分类模块中倒数第二个神经网络的输出维数设为2,在平面上绘制二维输出特征向量,如图所示。

 

 iDNA-ABT和6mA_C中五个手工特征编码的学习特征嵌入可视化。线虫。在图中,绿色和灰色代表独立测试集上的非dna甲基化(阴性)和dna甲基化(阳性)。每个子图标题中的“Epoch[x]”表示模型响应的训练Epoch。A-F为6mA_C的可视化结果。分别用iDNA-ABT、ANF、BINARY、DNC、NAC和NCP对epoch的秀丽隐杆线虫进行分析

3.训练过程中的降维特征表示和可视化

为了直观地展示我们模型的有效性,我们通过主成分分析(PCA) (Shlens, 2014)和t-SNE (Laurens和Hinton, 2008)将现有基准数据集上的特征空间简化为二维空间,分别在图6和图7中进行了部分说明。值得注意的是,PCA是一种常见的线性降维方法,而t-SNE是一种常见的非线性降维方法。两者在样本中表现出相似的特征。一开始将正样本和负样本混合,随着训练迭代次数的增加,最终将正样本和负样本清晰地分成两类,可见我们的模型能够很好地区分样本点。

 图6:主成分分析正、负样本的特征空间分布。在图中,紫色和红色分别代表非dna甲基化(阴性)和dna甲基化(阳性)。

图7: 正样本和负样本的特征空间分布的t-SNE。图中,蓝色和红色的点分别代表非dna甲基化(阴性)和dna甲基化(阳性)。

在本节中,我们对上述实验结果进行了总结和进一步的讨论。首先,我们在基准数据集中比较了pre-SOTA和基于深度学习的sNNRice6mA和Deeptorrent,以确保我们比较的全面性。值得注意的是,我们不仅比较了ACC、SN、SP、MCC、F1和AUC,还比较了ROC和PR曲线,以确保比较实验更加客观。实验结果表明,该模型在基准数据集上的大部分指标优于现有模型。与CNN和双向长短期记忆(BI-LSTM)相比,我们模型中的自我注意结构可以同时利用上下文信息,根据上下文信息动态调整词向量,通过训练得到更拟合的序列表示。此外,模型中有多个头部注意点,可以从不同方面提取,提高信息的全面性。

值得注意的是,我们还与现有的方法进行了比较,并在大多数物种中实现了增强,因此TIM损失被证明在二分任务中是有效的。此外,TIM损失的核心思想是最大化输入和它们的标签预测之间的熵,以产生自信的预测。因此,对于一些小型数据集或原始数据难以区分的数据集,可以利用TIM损失来提高精度。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值