论文解读《Detection of transcription factors binding to methylated DNA by deep recurrent neural network》

标题:通过深度循环神经网络检测与甲基化DNA结合的转录因子
期刊:Briefings in Bioinformatics

摘要

转录因子(TFs)是一种特异性参与基因表达调控的蛋白质。在表观遗传学中,人们普遍认为甲基化的核苷酸可以阻止TFs与DNA片段的结合。然而,最近的研究证实,一些转录因子有能力与甲基化的DNA片段相互作用,从而进一步调控基因表达。虽然生化实验可以识别与甲基化DNA序列结合的TFs,但这些实验方法是耗时和昂贵的。机器学习方法为在不使用实验材料的情况下快速识别这些TFs提供了一个很好的选择。因此,本研究旨在设计一个稳健的预测因子来检测甲基化DNA结合的转录因子。我们首先提出了使用三肽词向量特征来构建蛋白质样本。随后,基于具有长短期记忆的递归神经网络,设计了一个两步计算模型。第一步预测因子区分转录因子和非转录因子。一旦蛋白质被预测为TFs,就使用第二步预测因子来判断转录因子是否能与甲基化的DNA结合。通过独立数据集检验,第一步和第二步的准确率分别为86.63%和73.59%。此外,对训练样本中三肽的分布进行统计分析表明,该序列中某些三肽的位置和数量可能会影响TFs与甲基化DNA的结合。最后,在该模型的基础上,基于所提出的模型建立了一个免费的web服务器:https://bioinfor.nefu.edu.cn/TFPM/

介绍

转录因子(TFs)与从DNA到RNA的转录密切相关。在这一过程中,转录因子作为在调控中发挥关键作用的阅读器,与被表达基因的启动子相互作用。大量的RNA聚合酶被招募到启动子的核心区域,加速或减缓了信息从DNA到RNA的复制。具有相同遗传物质的不同细胞具有不同的生物学功能,这可以归因于TFs通过调控特定基因的表达来影响细胞分化。此外,相同的转录因子在细胞的不同阶段负责调控多个基因,这受到转录因子DNA特异性结合位点的限制。然而,DNA与TFs相互作用的生化机制仍然带着一个神秘的面具。为了解决这个问题,有必要识别大量的TF及其特定的位置。
转录因子中有三个主要的功能区域,包括DNA结合域(DBD)、转录调控域和核定位信号。这些特殊的结构域负责与靶基因[14]的启动子结合。以往的研究表明,DBD只能与没有甲基-cpg(mCpG)结合域(MBD)的DNA序列相互作用。然而,随着高通量技术的发展和第三代测序技术的出现,采用亚硫酸氢盐测序技术、PacBio单分子实时测序技术和牛津纳米孔测序技术对大量的DNA修饰序列进行了测序和检测。因此,最近的研究证实,一些没有mbd的转录因子可以与甲基化的DNA相互作用。阐明TFs与甲基化DNA之间的相互作用机制,对于理解甲基化介导的生物变异具有重要意义。
在生化实验室中,许多技术,包括基于SELEX的方法(高通量)、MITOMI(中通量)和基于chip的分析(低通量),已被用于识别TFs和靶DNA位点之间的相互作用。然而,使用这些生化实验方法来挖掘未注释的tf之间的相互作用是昂贵和耗时的。此外,随着测序技术的快速发展,未知转录因子和注释转录因子数量之间的差距越来越大。幸运的是,基于注释的蛋白质信息,可以建立一个计算模型来预测未注释的蛋白质是否为TFs,然后预测它们是否能与甲基化的DNA结合。为了构建这样的模型,我们只需要收集适量的非转录因子(NTFs),以及偏好甲基化DNA(TFPM)或非甲基化DNA(TFPNM),这可以实现精确的预测精度,降低实验成本。
最近,Liu等人基于支持向量机(SVM)和XGBoost开发了一个计算模型来识别转录因子,并判断转录因子是否能够与甲基化DNA [22]结合。该模型的输入特征是组成/过渡/分布(CTD)、分裂氨基酸组成[31]和二肽组成(DC)的组合。随后,Shen和Zou 推断,TFs与甲基化位点的结合模式受到碱性极性和碱性极性的影响疏水特性。然而,上述模型的这些特征失去了记录氨基酸位置的初始序列信息。重要的是,单个氨基酸的变化和不同氨基酸的位置交换会影响蛋白质的空间结构和功能特性。然而,这些变化对传统特征的影响很小,导致传统特征不能很好地描述TFs。因此,在本研究中,我们定义了一个新的特征,即三肽词载体,如图1所示,它包含不同三肽之间的特征,以反映不同位置氨基酸变化的差异。随后,我们使用了一个具有长短期记忆(LSTM)的循环神经网络(RNN)单元来捕获TFs中三肽信息的时间序列特征。最后,建立了一个识别tf的两步模型。第一步是识别来自不同蛋白质中的TFs,第二步是判断它们是否能与甲基化的DNA结合。下一节将介绍有关该模型的详细信息。
在这里插入图片描述

材料和方法

数据集

一个可靠的基准数据可以为构建模型提供正确的信息。本文使用的训练数据和测试数据来自刘的工作的。这些数据具有以下特征::(I)样品的长度不小于50个氨基酸残基;(II)这些序列不含模糊的氨基酸,如“B”、“X”或“Z”;(III)同一类别的序列同一性小于25%。有关数据的细节可以参考刘的作品。需要提到的是,TFs与甲基化DNA结合的原始数据是从MeDReaders 数据库中下载的。在基准数据集中,使用416个TFs和416个NTFs来训练已识别的TFs模型。将106个TFs和106个NTFs视为独立的数据集来验证模型的性能。此外,为了建立一个判断TFs是否有能力与甲基化DNA结合的模型,我们总共使用了106个TFPM和106个TFPNM作为训练数据。然后,在独立数据中分别包含69个TFPM和37个TFPNM,以进一步评价模型的性能。以上数据可在https://bioinfor.nefu.edu.cn/TFPM/上获得

三肽词载体

传统的机器学习数字特征通常将蛋白质20个氨基酸从n端到c端排列的序列信息转换为载体,如DC、CTD、氨基酸组成(AAC)、伪氨基酸组成等。然而,这些特征失去了最原始和最重要的蛋白质序列信息。当蛋白质序列中的不同氨基酸被交换时,它们不会发生显著的变化,这说明这些特征对序列信息不敏感。因此,有必要开发新的特征来参考不同氨基酸序列之间的相似性或差异性。
为了克服上述特征的不足,我们在自然语言处理中开发了基于词向量征的三肽词向量特征。如图1所示,**特征提取过程包括三个步骤: (i)收集足够的蛋白质序列数据;(ii)将每个蛋白质序列转换为三肽形式,通过Skip-gram模型训练三肽单词向量,根据输入单词预测可能出现在其上下文中的单词;(iii)通过特定维度的一维数组表示不同的三肽特征。第一步是计算不同三肽的可能性和位置,以测量三肽在不同背景下的差异。第二步主要是参考参考序列中氨基酸的上下文,通过Skip-gram模型进行学习和训练。第三步是使用训练过的词向量模型来描述特征相似性,因为具有不同氨基酸的蛋白质片段可能具有相同的功能。因此,向量特征对序列间氨基酸的变化非常敏感,这有助于提高利用计算模型对不同功能蛋白进行分类的能力。
在我们的工作中,通过将窗口从n端到c端移动一步,将完整的蛋白质序列划分为几个三肽子序列。例如,一个蛋白质序列为“MAGPWTFTL”,其三肽形式为<MAG、AGP、GPW、PWT、WTF、TFT、FTL>。相邻的三肽包含两个相同的残基,增强了特征之间的背景关系。其他多肽形式不适合我们的小规模数据集。例如,有16 000种四肽。其中一些很有可能不会出现在训练样本中,这会导致噪声和冗余信息,不利于模型的建立。
利用Skip-gram模型,通过特定位置的三肽预测上游和下游三肽。因此,通过训练1945个蛋白序列,构建了7997个三肽词载体。此外,Skip-gram模型是通过Python语言的“genism”库建立的。这两步的三肽字向量的输出分别为100维和200维的特征,这是要考虑到维数的增加可以弥补TFPM和TFPNM中信息的不足。

深度学习算法

蛋白质的功能与其三维结构密切相关,其三维结构受到序列中残基位置的影响。氨基酸残基的交换和差异会影响蛋白质的功能。传统的机器学习算法,包括SVM、随机森林、XGBoost 等,都独立于输入特征的上下文。近年来,模拟动物大脑神经元传输信号方式的神经网络被广泛应用于分类问题。之前提出的RNN主要用于处理自然语言。LSTM深度学习算法弥补了RNN在梯度消失中的不足。此外,它还可以通过序列特征的输入顺序来处理序列上下文。在LSTM中,输入样本中的每个三肽都对应于“一个状态”。随着下一个三肽的输入,模型状态的更新通过三个门进行控制。遗忘门用于过滤当前的三肽和以前的三肽的信息。增强门用于更新当前状态的保留信息。输出门用于输出当前模型的状态。由于LSTM可以记录整个序列中不同位置的三肽的贡献,该算法用于预测TFs,并确定它们是否可以与甲基化DNA结合。在我们的工作中,我们使用一个具有LSTM单元的双向层RNN,每个LSTM单元包含128个隐藏节点,来构建TFs预测模型。建立了TFs是否与甲基化DNA结合的预测模型。通过两个单向层RNN,LSTM单元包含256个隐藏节点。所提出的模型的实现依赖于pytorch 1.1.0版本。

性能评估

该计算模型需要一些方法来验证其性能和鲁棒性。交叉验证和独立数据集测试是常用的验证方法。深度学习算法通常存在过拟合的风险;因此,我们使用独立集测试来验证我们所建立的模型的准确性。同时,采用准确性(Acc)、敏感性(Sn)、特异性(Sp)和Matthews相关系数(MCC)等四种统计评价指标对模型的性能进行评价。评价指标的计算公式如下:
在这里插入图片描述
其中,TP和TN为正确预测的阳性样本和阴性样本,FP和FN为错误预测的阳性样本和阴性样本。此外,受试者工作特征(ROC)曲线作为两个分类问题的评价指标,曲线下面积(AUC)代表了优越的性能。

结果与讨论

从蛋白质中预测转录因子

为了确定转录因子是否能与甲基化DNA结合,实验的第一步是建立一个预测模型来区分转录因子和NTFs。我们通过独立集测试验证了所提出的模型的性能,并将结果列在表1中。与已发表的模型的比较也记录在表中。总的来说,我们的模型比Liu的模型表现得更好。Acc和MCC分别增长了3.61%和0.0658,分别为86.36%和0.7275。
该模型的优越性能证明了三肽词向量和LSTM可以捕获序列的一级结构信息。为了明确TFs和NTFs在一级结构上的差异,我们计算了416个TFs和416个NTFs之间不同三肽的数量,并通过单词云显示。显然,TF中最常见的三肽是AAA、GGG、SSS和PPP,其数量大于500,如图2A所示,这推断每个TF可能包含这些三肽。特别是在同一TF中,三肽AAA可能比其他三肽出现得更多。然而,在NTFs中,只有三肽EEE的数量大于样本的数量,以及其他三肽的数量,包括PPP、LLL、SSS等的值较低,差异较小,如图2B所示。以上统计分析表明,特异性三肽可能会影响TFs的功能。
在这里插入图片描述
在这里插入图片描述
该蛋白的功能不仅与特定三肽的数量有关,而且还与该三肽在序列中的位置分布有关。因此研究了出现在不同位置的三肽。由于序列长度不均匀,每个序列被分为起始、中间和结束三个片段,其中计算前30个位点的三肽数。如图3所示,TFs和NTFs之间差异最大的前10个三肽用白色字体染色,列在表2中。在NTFs中,三肽题词的数量和类型(AAA、LLL、EEE、GGA、AAG等)。更多的是在序列的开始位置,而不是在中间位置(PPP、LLL等)。和末端(EEE、SSS等)的序列。在TFs中,以AAA为主的三肽分布在序列的起始位置和中间位置。一般来说,三肽AAA的比例最大,这可能对TFs的功能有更重要的影响。
TF和NTF不同位置的三肽的分布。蓝色、橙色、绿色、红色和紫色表示当前位置的前五个三肽。带有白色题词的三肽代表了TF和NTF数量的很大差异。带有黑色题词的三肽意味着差别不大
在这里插入图片描述

TFs是否与甲基化DNA结合的预测

一旦一个蛋白质通过第一个模型被确定为TF,就有必要探索该TF是否能够与甲基化的DNA结合。我们训练了一个模型,根据方法中的描述来识别这些TFs。从表3可以看出,我们的模型的性能指标都高于之前发表的模型,特别是ACC、MCC和AUC分别从68.87%、0.3471和0.735提高到73.59%、0.4831和0.832。如Liu等人所述,不同类型的TFs与甲基化或非甲基化DNA相互作用,在功能和一级结构上是相似的。准确获取TF的序列信息以参考它们的差异是非常必要的。我们的模型不仅考虑了残留物的组成,还考虑了位置信息,因此,我们的模型的预测精度被大大提高了。从图4中的单词云,可以发现大多数三肽出现在TFPM TFPNM,包括AAA, GGG, SSS,PPP,进一步说明了TFPM和TFPNM之间的相似性,但相同的数量和位置的差异的三肽序列可能是关键决定TF结合甲基化DNA。
根据TFPM和TFPNM不同位置的三肽类型,我们在图5中列出了序列起始、中间和末端每30个位置排列的5个三肽。所有TFPM和TFPNM中带有白色题词的三肽数量均有显著差异,记录见表4。在TFPM序列开始时,GGG是分布最多的三肽,其次是AAA。相反,AAA是最常见的,GGG在TFPNM中排名第二。三肽PGP出现在TFPM中而不是TFPNM中,位于序列开始时的第20位,表明特定位置的三肽可能影响TF是否与甲基化DNA结合。在序列的中间位置,AAA在TFPM和TFPNM中最为常见。在序列结束时,TFPM和TFPNM中带有白色题词的三肽数量显著减少,TFPNM中的AAA数量小于TFPNM中。总的来说,三肽AAA的数量和位置可能会发生确定TF是否与甲基化的DNA结合,以及其他特殊的三肽也会影响它。此外,丙氨酸的疏水性证实了Shen的结论,即疏水性影响TFs与甲基化位点的结合。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

转录因子与DNA的结合对靶基因有消极(抑制转录)或积极(激活转录)的影响。最近,一种新的相互作用机制被证实,TFs可以与甲基化DNA结合。由于这种关系的功能和原理仍然很神秘,因此判断TFs是否能与甲基化DNA结合是遗传表观遗传学的一个里程碑。因此,我们引入了一种基于检测转录因子的三肽词载体,并进一步区分转录因子是否能与甲基化DNA结合。实验结果证实,特异性三肽的位置和数量可能限制了TFs与甲基化DNA的结合。三肽的实验模型和词向量特征将以https://bioinfor.nefu.edu.cn/TFPM/网站的形式呈现。预测20个TFs样本与NTFs和TFPM vs TFPNM的预测需要10秒和20秒。我们相信三肽的词载体将对其他功能蛋白的预测有积极的贡献。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值