On the prediction of DNA-binding proteins only from primary sequences: A deep learning approach论文笔记

Abstract

       DNA结合蛋白在真核和原核蛋白质组的选择性剪接,RNA编辑,甲基化和许多其他生物学功能中发挥关键作用。从一级氨基酸序列预测这些蛋白质的功能正成为基因组功能注释的主要挑战之一。传统的预测方法通常致力于从序列中提取生理化学特征,但忽略图案之间的基序信息和位置信息。同时,训练数据中的小规模数据量和大噪声导致预测的准确性和可靠性较低。在本文中,我们提出了一种基于深度学习的方法来从单独的一级序列中鉴定DNA结合蛋白。它利用两个阶段的卷积中性网络来检测蛋白质序列的功能域,并利用长期短期记忆神经网络来识别它们的长期依赖性,利用二元交叉熵来评估神经网络的质量。当使用真实的DNA结合蛋白数据集测试所提出的方法时,在Matthew的相关系数为0.961时,其预测准确度为94.2%。与通过独立测试的拟南芥和酵母数据集上的LibSVM相比,准确度分别提高了9%和4%。使用不同特征提取方法的对比实验表明,我们的模型与其他方法的表现相似,但其敏感性,特异性和AUC值分别增加了27.83%,1.31%和16.21%。这些结果表明我们的方法是鉴定DNA结合蛋白的有前途的工具。

Introduction

       蛋白质的一个重要功能是DNA结合,它在真核和原核蛋白质组的选择性剪接,RNA编辑,甲基化和许多其他生物学功能中发挥关键作用[1]。目前,已经开发了计算和实验技术来鉴定DNA结合蛋白。由于实验鉴定中耗时且昂贵的缺陷,非常需要计算方法来区分DNA结合蛋白与爆发性增加量的新发现的蛋白质。到目前为止,已经提出了许多用于确定DNA结合蛋白的基于结构或序列的预测因子。基于结构的预测通常基于许多生理化学特征的可用性而获得高准确度。然而,它们仅适用于具有高分辨率三维结构的少量蛋白质。因此,单独从其一级序列中揭示DNA结合蛋白正成为基因组学功能注释中的一项紧迫任务,具有大量蛋白质序列数据。 

       在过去的几十年中,已经提出了一系列仅使用一级序列鉴定DNA结合蛋白的计算方法。在这些方法中,构建有意义的特征集并选择合适的机器学习算法是使预测成功的两个关键步骤[5]。蔡等人。首先开发了SVM算法SVM-Prot,其中特征集来自三个蛋白质描述符,组成(C),转换(T)和分布(D),用于提取氨基酸的7个生理化学特征[2]。库马尔等人。使用PSSM谱[1]形式的氨基酸组成和进化信息训练SVM模型。 iDNA-Prot使用随机森林算法作为预测引擎,将特征结合到通过ªgrey模型从蛋白质序列中提取的假氨基酸组成的一般形式[3]。邹等人。训练了一个SVM分类器,其中的特征集来自四种蛋白质特性的三种不同特征转换方法[4]。 Lou等人。提出了一种DNA结合蛋白的预测方法,通过使用随机森林执行特征等级和使用前向最佳优先搜索策略的基于包装的特征选择[6]。 Ma等人。通过结合DNA结合残基的结合倾向,使用具有杂交特征集的随机森林分类器[7]。刘教授的研究小组开发了几种用于预测DNA结合蛋白的新工具,如iDNAProt |通过结合氨基酸距离对和减少字母轮廓进入一般假氨基酸组成[8],PseDNA-Pro通过结合PseAAC和物理化学距离转换[9],iDNAPro-PseAAC结合伪氨基酸组成和基于轮廓的蛋白质表示[10],iDNA-KACC通过结合autocross协方差变换和集成学习[11]。周等人。编码了一个多尺度的蛋白质序列,包括氨基酸预测蛋白质相互作用的七种性质,包括它们的定性和定量描述[5]。还有一些通用的蛋白质特征提取工具,如Pse-in-One [12]和Pse-Analysis [13]。他们通过用户定义的模式生成特征向量,并使其更加灵活。 

       深度学习现在是机器学习中最活跃的领域之一,并且在计算机视觉[14],语音识别[15]和自然语言处理[16]方面取得了巨大成功。它由多个线性和非线性变换组成,通过使用具有多个处理层的深度图来模拟高级抽象。卷积神经网络(CNN)和长期短期记忆神经网络(LSTM)是深度学习的两种典型体系结构。来自计算生物学的社区正在努力深入学习以解决其生物学问题[17],范围从DNA,RNA结合特异性预测[18±20]到蛋白质二级结构[21],折叠[22]和接触图[23]认可。他们中的大多数不仅使用序列进行预测,还使用其他信息进行预测,例如转录[18]和进化谱[21]。他们中很少有人单独使用序列信息。此外,Asgari等人。已经得到了生物序列的连续分布表示,以使发展迅速[24]。

        由于深度学习技术在其他学科中取得了成功,我们的目标是研究深度学习网络是否只能使用序列信息在识别DNA结合蛋白领域取得显着进步。在这项工作中,我们提出了一种基于深度学习的方法来预测一级序列中的DNA结合蛋白。该模型利用两个阶段的卷积中性网络来检测蛋白质序列的功能域,并利用长期短期记忆神经网络来识别它们的长期依赖性,利用二元交叉熵来评估神经网络的质量。与传统的机器学习方法相比,它克服了特征选择过程中更多的人为干预,因为所有特征都是自动学习的。它使用过滤器来检测序列的功能域。域位置信息由LSTM产生的特征映射编码。强化实验表明其卓越的预测能力具有很高的通用性和可靠性。

Materials and methods

 Data sets

       原始蛋白质序列是从Swiss-Prot数据集中提取的,这是一个手动注释和评论的UniProt子集。 它是一个全面,高质量且可自由访问的蛋白质序列和功能信息数据库。 我们收集了551,193种蛋白质作为Swiss-Prot发布版本2016.5的原始数据集。

       为了获得DNA结合蛋白,我们通过搜索关键词“DNA-Binding”从原始数据集中提取序列,然后去除长度小于40或大于1,000个氨基酸的序列。 最后选择42,257个蛋白质序列作为阳性样品。 我们使用查询条件“分子函数和长度[40到1,000]”随机选择42,310个非DNA结合蛋白作为来自数据集其余部分的阴性样本。 对于正样本和负样本,其中80%随机选择作为训练集,其余为测试集。 此外,为了验证我们模型的一般性,使用了来自文献[25]的另外两个测试集(酵母和拟南芥)。 详细信息请参见表1。

实际上,非DNA结合蛋白的数量远远大于DNA结合蛋白的数量,并且大多数DNA结合蛋白数据集是不平衡的。 因此,我们通过使用相同集合中的相同阳性样本来模拟真实数据集,并使用查询条件“分子函数和长度[40到1,000]”来构建来自不包括那些阳性样本的数据集的阴性样本, 参见表2.验证数据集也是使用文献[25]中的方法获得的,添加条件`(序列长度_1000)'。 最后获得104个具有DNA结合的序列和480个没有DNA结合的序列。

       为了进一步验证模型的推广,使用上述方法构建包括人类,小鼠和水稻物种的多物种数据集。 有关详细信息,请参阅表3。

 

       对于传统的基于序列的分类方法,训练数据集中序列的冗余常常导致预测模型的过拟合。 同时,酵母和拟南芥的测试组中的序列可以包括在训练数据集中或与训练数据集中的一些序列具有高度相似性。 这些重叠序列可能导致测试中的伪性能。 因此,我们构建了相等和实际数据集的低冗余版本,以验证我们的方法是否适用于这种情况。 我们首先删除酵母和拟南芥数据集中的序列。 然后应用具有最低阈值0.7的CD-HIT工具来移除序列冗余,有关数据集的详细信息,请参阅表4。

 Methods

        就像现实世界中的自然语言一样,以不同组合一起工作的字母构成单词,以不同方式相互组合的单词构成短语。 处理文档中的单词可以传达文档的主题及其有意义的内容。 在这项工作中,蛋白质序列类似于文档,氨基酸到词,以及词组到词组。 它们之间的挖掘关系将产生关于与序列对应的物理实体的行为属性的更高级别信息。 

       深度学习模型结构。所提出的深度学习模型由四个分层组件组成:编码层,嵌入层,CNN层和LSTM层,如图1所示。编码层将序列映射到固定长度的数字矢量。嵌入层将其转换为连续向量。与word2vec模型类似,转换为这个连续空间允许我们使用连续度量相似性概念来评估单个氨基酸的语义质量。 CNN层由两个卷积层组成,每个卷层后面跟着最大池化操作。 CNN可以在层的神经元之间实施局部连接模式以利用空间局部结构。具体地,CNN层用于捕获蛋白质序列的非线性特征,例如,非线性特征。基序,并增强与DNA结合功能的高水平关联。能够学习序列预测问题中的顺序依赖性的长短期记忆(LSTM)网络用于学习基序之间的长期依赖性。

       给定的蛋白质序列S,在四层处理后,通过等式1计算作为DNA结合蛋白的亲和力分数f(s)。

      之后,应用S形激活来预测蛋白质序列的功能标记,并应用二元交叉熵来评估网络质量。 整个过程以反向传播方式进行训练。 图1显示了该模型的细节。 为了说明所提出的方法如何工作,在每次处理之后使用示例序列S = MSFMVPT来显示产品。

        蛋白质序列编码。 特征编码是在大多数蛋白质序列分类任务中构建统计机器学习模型的繁琐但关键的工作。 已经提出了各种方法,例如基于同源性的方法,n-gram方法和基于物理化学性质的提取方法等。 虽然这些方法在大多数情况下都能很好地发挥作 新兴深度学习技术最成功的一点就是它能够自动学习功能。 为了验证其一般性,我们只为每个氨基酸指定一个性质数,见表5.应该注意氨基酸的顺序对最终性能没有影响。

       编码阶段仅产生蛋白质序列的固定长度数字载体。 如果其长度小于“max_length”,则在前面填充特殊标记“X”。 作为示例序列,在编码之后它变为2。

       嵌入阶段。 向量空间模型用于表示自然语言处理中的单词。 嵌入是一个映射过程,离散词汇表中的每个单词都将嵌入到连续的向量空间中。 以这种方式,语义上相似的单词被映射到相似的区域。 这是通过简单地将左侧的单热矢量与权重矩阵相乘来实现的,其中| V | 是词汇表中唯一符号的数量,如(3)所示。

         在嵌入层之后,输入的氨基酸序列变为密集的实值向量序列(e1,e2,...)。 现有的深度学习开发工具包Keras提供嵌入层,该嵌入层可以将表示词汇表中的每个单词的整数(n_batches,sentence_length)维矩阵变换为(n_batches,sentence_length,n_embedding_dims)维矩阵。 假设输出长度为8,嵌入阶段将S1中的每个数字映射到固定长度的向量。 在嵌入阶段之后,S1变为8×8矩阵(在4中)。 从这个矩阵,我们可以用[0.4,-0.4,0.5,0.6,0.2,-0.1,-0.3,0.2]代表甲硫氨酸,并代表甲状腺素[0.5,-0.8,0.7,0.4,0.3,-0.5,-0.7 ,0.8]。

卷积阶段。 卷积神经网络通过发现图像中的局部特征而广泛用于图像处理。 编码的氨基酸序列在通过嵌入层时被转换成固定大小的二维矩阵,因此可以通过像图像这样的卷积神经网络进行处理。 设尺寸为Lin×n的X为1D卷积层的输入。 我们使用大小为k×n的N个滤波器来跨所有bin位置执行滑动窗口操作,这产生大小为N×(Lin-k + 1)的输出特征映射。 作为示例序列,卷积阶段使用多个二维滤波器来检测这些矩阵,如(5)中所示。

其中xj是第j个特征映射,l是层的编号,Wj是第j个滤波器,是卷积算子,b是偏差,激活函数f使用“Relu”,旨在增加非线性特性 网络的,如(6)所示。

卷积神经网络的结构如图2所示。每个滤波器用于扫描序列中的特征。 为了更直观地理解卷积神经网络,我们从具有最佳性能训练的模型中取出卷积层中的2×8滤波器(7)。

图2.卷积中性网络的结构。 该模型使用2个过滤器来获取2个特征图,然后在特征图上应用最大超时池操作,并将最大值作为与过滤器对应的特征。

W用于检测S2,获得8维维度向量,如下所示。

然后,应用具有pooling_length = 2的最大超时池化操作,r变为S3(在等式8中),其被称为由滤波器W检测的特征图。

LSTM阶段。 虽然传统的RNN在语音识别和文本生成方面取得了显着成果,但消失和爆炸梯度的问题使得学习长期动态变得困难。 LSTM是一种特殊的递归神经网络架构,通过合并内存单元提供解决方案,允许网络了解何时忘记先前隐藏的状态以及何时在给定新信息的情况下更新隐藏状态。 它使用专用的存储单元来存储信息。 LSTM细胞的经典结构[26]如图3所示。

LSTM单元的组件由上面的等式解释。 其中σ是逻辑sigmoid函数,i,f,o和c分别是输入门,遗忘门,输出门,单元和单元输入激活向量,所有这些都与隐藏向量h的大小相同。 权重矩阵下标具有明显的含义,例如,W是隐藏输入门矩阵,Wxo是输入 - 输出门矩阵等。从单元到门向量(例如Wci)的权重矩阵是对角线的,因此每个中的元素m 门矢量仅接收来自单元矢量的元素m的输入。 为清楚起见,省略了偏置项(添加到i,f,c和o)。

        在我们的模型中,前一阶段的功能作为输入传递给LSTM网络。 LSTM从第二卷积层生成由S4表示的输出的固定长度特征表示。

激活和丢失功能。 通常,S形函数表现出良好的数学行为,例如实值,可微分,具有非负或非正一阶导数,一个局部最小值和一个局部最大值。 因此,在这项工作中,我们将其用作网络的激活功能,参见方程14。

损失函数衡量机器学习模型与经验数据的匹配程度。 在这项研究中,二元交叉熵[27]。 用于评估预测性能,见方程15。

其中t是目标,o是输出。

整个过程在Keras框架中实现,这是一个极简主义和高度模块化的神经网络库。 Keras是用Python编写的,能够在TensorFlow或Theano之上运行。 它的开发重点是实现快速实验,并支持CPU和GPU。

Results

Experiment setups

我们使用了三种数据集,包括平衡,不平衡和多种类,以对不同模型的性能进行基准测试。 对于每个数据集,其中80%被随机选择用于训练,其余数据用于测试。 最终的表现是通过最佳的kfold(k = 3,5,10)交叉验证给出的。
  所有实验都使用相同的网络参数。 每层的输入参数和输出尺寸如表6所示。

 

Evaluation measures

 为了评估所提出方法的性能,本研究中使用了几种评估方法。 这些标准包括准确性,敏感性和特异性。 公式中定义了16到18。

       其中TP,TN,FN和FP分别是真阳性,真阴性,假阴性和假阳性的数量。 在这些测量中,灵敏度表示预测阳性样品的准确性,特异性表示预测阴性样品的准确性,精确度定义为测试集中正确预测的样品的比率。

      另外,接收器操作特性曲线(AUC)下的面积也用于评估性能。 AUC是一种强有力的总体测量,因为其计算依赖于完整的ROC曲线,因此涉及所有可能的分类阈值。

The results in equal data set

         为了证明所提出的方法预测DNA结合蛋白的能力,我们首先通过k-fold(k = 3,5,10)交叉验证在独立测试数据集上对其进行评估。 在k倍交叉验证中,蛋白质序列随机分成k等份。 在每个实验中,一个部分保留用于测试集,另一个k-1部分用作训练集。 3,5,10倍实验的准确度分别为87.5%,92.8%和93.1%。 然后我们使用5倍实验中的最佳模型(参见图4)来测试序列 

        为了证明所提出的方法预测DNA结合蛋白的能力,我们首先通过k-fold(k = 3,5,10)交叉验证在独立测试数据集上对其进行评估。 在k倍交叉验证中,蛋白质序列随机分成k等份。 在每个实验中,一个部分保留用于测试集,另一个k-1部分用作训练集。 3,5,10倍实验的准确度分别为87.5%,92.8%和93.1%。 然后我们使用5倍实验中的最佳模型(参见图4)来测试来自拟南芥和酵母物种的序列[25],比较具有DNA结合物和LibSVM预测的精确度,参见表7.结果显示 我们模型的预测准确度分别比拟南芥和酵母物种的表现优于LibSVM几乎8%和4%。

The results in realistic data set

 对于真实数据集,我们计算其表8中所示的准确度,灵敏度,特异性和auc值,并分别绘制图5和图6中的测试和验证数据集的ROC曲线。

        从结果中我们可以看出,我们的模型适用于具有竞争性ROC行为的类不平衡和平衡数据集,这对于传统的机器学习方法来说是一个非常困难的情况。

Results in multi-species dataset

        为了进一步验证我们的物种跨物种的一般性,我们训练人类,小鼠和水稻物种的三个模型,然后使用这些模型来测试其他模型。 表9显示了不同物种的结果。 

        从结果来看,人体模型在自身和鼠标中都很好,反之亦然。 水稻模型本身效果很好,但人类和老鼠的准确度较低。 这些结果与人类与小鼠具有密切遗传关系的事实相吻合,远离大米。

性能与不同特征提取方法的比较

      我们还比较了深度学习模型与其他特征提取方法在相同数据集和真实数据集上的性能。 

      提出了三种特征提取方法,包括188D [28],自协方差(AC)[29]和联合三元组(CT)得分[30],并应用线性回归,支持向量机,随机森林来测试 这些功能的表现。

       188D根据氨基酸的组成,分布和理化性质提取序列特征,然后形成188维载体以代表原始序列。 AC方法考虑了整个序列内氨基酸之间的相互作用,并用描述残基之间平均相互作用的AC变量载体代表每个序列。 CT方法将所有氨基酸分为七类,并将三个连续氨基酸作为一个单元,并用氨基酸序列中出现的三联体类型频率的343维向量表示每个序列。

       使用相同的训练和测试数据集的性能比较分别总结在表10和11中。 对于相等的数据集,我们的模型优于188D和SVM组合的最佳已知结果的2%,并且超过所有其他数据的平均值的10%。 对于真实数据集,我们的模型与其他数据集的最佳(188D + RF)具有相似的精度,但其灵敏度和AUC分别优于0.2627和0.1511。 这表明所提出的模型更可靠和稳健。

与低冗余训练集的性能比较

我们在相等和真实数据集的低冗余版本上训练模型,并将性能与188D + SVM方法进行比较。 结果显示在表12和13中。 

与低冗余训练集的性能比较

        我们在相等和真实数据集的低冗余版本上训练模型,并将性能与188D + SVM方法进行比较。 结果显示在表12和13中。

       对于等数据集的低冗余版本,精度比完整版本低3.86%,略高于188D + SVM方法。 当该模型应用于拟南芥和酵母数据集时,准确度分别为85%和78%,略低于完整模型中的精度。

       对于真实数据集的低冗余版本,其模型比完整模型更糟糕,但优于188D + SVM方法。

       这些结果表明训练数据集中的序列冗余不会降低性能,同时以某种方式增加预测能力,因为深度学习需要大量数据来适应其模型,并提供克服模型的机制(尤其是丢失技术) -配件。

讨论

       在计算机视觉领域,最近的研究[31]揭示了网络深度至关重要,例如在具有挑战性的ImageNet上,模型的开发深度为十六[31]到三十[32]。 为了比较不同网络深度和滤波器长度的影响,我们设计了另外两种模型。 第一对比模型是具有滤波器长度5的单层CNN。第二对比模型具有两层CNN,其具有第一CNN层的滤波器长度5。

        图7表明,具有两层CNN的模型可以加速损失函数的收敛,而具有较大滤波器长度的模型可以获得较高的损失函数收敛。预测精度表现出类似的行为,见图8。

       在实验过程中,我们发现神经网络的性能以某种方式由数据驱动而不是人工设计的结构。 对于小型数据集,深度学习没有比传统机器学习方法更优秀的性能。 随着蛋白质序列数据的快速增长,深度学习的优势可以越来越多地得到体现。 同时,计算速度是一个不可或缺的问题。 GPU经常用于加速这种情况的计算速度。

       最近的一项研究预测DNA结合蛋白与ssDNA(单链DNA)或dsDNA(双链DNA)相互作用,使用OAAC(总氨基酸组成)特征,二肽组合物,PSSM(位置特异性评分基质谱)和分裂氨基酸 成分(SAA)[33]。 通过SVM(支持向量机)和RF(随机森林)分类模型进行测试,其方法可以达到88.7%的准确率和0.919的AUC。 我们的方法在实际数据集上实现了94.2%的准确率和0.961的AUC。 此外,深度学习方法可以加速琐碎特征选择的过程,使科学家们能够更加努力地进行生物分析。

      本研究中使用的所有源代码均可在figshare服务器上获得(https://doi.org/ 10.6084 / m9.figshare.5231602.v1)。 用于预测DNA结合蛋白的用户友好型网络服务器可在http://119.23.251.26/WebServer/上获取。

Conclusion

       计算生物学家经常努力成功地提取有意义的特征并选择合适的机器学习算法来预测生物序列的空间结构或功能。 能够自动学习特征并以反向传播方式训练模型的深度学习框架正在朝着这些领域取得巨大成功。 在本文中,我们提出了一种基于深度学习的方法,仅使用一级序列预测蛋白质的DNA结合功能。 两层CNN加LSTM网络可以提高学习能力,并且在局部连接和长期依赖性方面包含更多的主题优化潜力。

        与DNA binder和LibSVM相比,所提出的方法在相同和真实的数据集上显示出最先进的性能。 它还证明了多物种测试的实质性。 此外,该方法在准确性,特异性,灵敏度和AUC方面优于大多数现有的特征提取方法和成功的机器学习算法。 这种深度学习模型在预测蛋白质DNA结合功能方面的全面研究可能为未来的蛋白质组学研究提供竞争工具。 提出的深度学习方法将有许多其他潜在的应用,如蛋白质远程同源性检测[34],miRNA预测[35]等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值