EL_PSSM-RT论文阅读笔记

原文:EL_PSSM-RT: DNA-binding residue prediction by integrating ensemble learning with PSSM Relation Transformation

摘要 

 Background:DNA结合残基的预测对于理解蛋白质-DNA识别机制是重要的。 已经提出了许多用于预测的计算方法,但是它们中的大多数没有考虑残差之间的进化信息的关系。

结果:在本文中,我们首先提出一种新的残差编码方法,称为位置特定分数矩阵(PSSM)关系变换(PSSM-RT),利用残差之间的进化信息关系对残基进行编码。 PDNA-62和PDNA-224用于通过五重交叉验证评估PSSM-RT和两种现有的PSSM编码方法。性能评估表明PSSM-RT比以前的方法更有效。这验证了残基之间的进化信息关系在DNA结合残基预测中确实有用的观点。还通过组合集成学习模型和PSSM-RT来提出集成学习分类器(EL_PSSM-RT),以更好地处理数据集中结合和非结合残基之间的不平衡。使用PDNA-62和PDNA-224以及两个独立的数据集TS-72和TS-61,通过五重交叉验证评估EL_PSSM-RT。与四个数据集上现有预测因子的性能比较表明,EL_PSSM-RT是所有预测方法中表现最佳的方法,MCC为0.02-0.07,ST为4.18-21.47%,AUC为0.013-0.131。此外,我们分析了PSSM-RT提取的配对关系的重要性,结果验证了PSSM-RT编码DNA结合残基的有效性。

结论:我们提出了一种新的预测DNA结合残基的预测方法,包括进化信息和集成学习的关系。 性能评估表明,残基之间的进化信息关系确实可用于DNA结合残基预测,并且集合学习可用于解决结合和非结合残基之间的数据不平衡问题。 提供EL_PSSM-RT(http://hlt.hitsz.edu.cn:8080/PSSM-RT_SVM/)的Web服务,以免费访问生物研究社区。

关键词:DNA-蛋白质相互作用,DNA结合残基,PSSM,集合学习,SVM,随机森林,关系变换

背景

       DNA结合蛋白在许多重要的生物学过程中发挥重要作用,如DNA复制,重组,修复,基因转录和表达[1]。据报道,2-3%的原核基因组和6-7%的真核基因组编码DNA结合蛋白[2,3]。由于蛋白质和DNA之间的相互作用主要由直接接触形成[4],因此识别接触中涉及的残基对于理解它们之间的机制非常重要。此外,DNA结合残基的鉴定也有助于理解疾病的发病机理。 Bullock和Fersht [5]报道蛋白质上某些DNA结合残基的突变可能与某些疾病有关。例如,肿瘤抑制蛋白P53上DNA结合残基的突变可能使个体易患癌症[5]。已经提出许多实验技术来区分DNA结合残基,包括电泳迁移率变动分析(EMSAs)[6,7],核磁共振(NMR)光谱[8],X射线晶体学[9],肽核酸(PNA) - 辅助鉴定RNA结合蛋白(RBPs)(PAIR)[10],MicroChIP [11],Fast ChIP [12]和常规染色质免疫沉淀(ChIP)[13]。然而,实验方法非常昂贵且耗时。随着蛋白质序列的快速积累,迫切需要开发用于鉴定DNA结合残基的计算方法。 

        对于DNA结合残基预测,近年来已经提出了许多计算方法。这些预测方法中使用的特征包括三种类型:序列特征,结构特征和进化特征。在早期阶段,由于计算能力的限制,进化特征不容易获得,因此预测变量主要是基于结构信息或序列特征或它们的组合而开发的。例如,Ahmad等人开发的支持向量机(SVM)分类器。 [14]仅利用序列特征,例如局部氨基酸组成和溶剂可及表面积。由Tsuchiya等人建造的分类器。 [15]仅使用结构特征,例如表面上的静电势和分子表面的形状。 Bhardwaj [16]等人提出的DNA结合残基分类器。使用了序列和结构信息,例如溶剂可及性,局部组成,净电荷和静电势。 Bhardwaj等人提出的后来的SVM分类器。 [17]使用了结构特征,如残留物的净电荷,阳离子斑块中的出现,以及残留物的平均电位以及其先前工作中使用的特征[16]。上述方法的主要限制是它们没有使用任何已报道有助于蛋白质功能预测的进化信息[18-20]。因此,将进化信息结合到DNA结合残基的鉴定中可能潜在地提高其鉴定准确性。

           随着计算能力的提高,进化功能的使用变得更加容易。因此,现在有更多方法使用进化特征进行预测。位置特异性分数矩阵(PSSM)是进化特征的常见表示,并以两种方式用于预测方法:(1)通过结合进化信息和理化性质编码残基的组合方法和(2)编码残基的连接方法通过在滑动窗口中连接PSSM(位置特定分数矩阵)分数。在组合方法中,PSSM与理化性质组合以计算每个残基的特征值。例如,Wang等人提出的编码方法。 [21]结合了序列比对和几种生化特性产生的基于BLAST的保守分数来计算残基的特征值。他的小组[19]提出的后一种编码方法结合了三种物理化学特征,包括疏水性,侧链pKa值和分子质量和频率分布,以计算目标残基及其背景残基的物理化学特征值。三种物理化学特征的平均值和标准差用于构建特征空间。 Ma等人提出的编码方法。 [22]结合PSSM和四种物理化学性质,包括孤电子对,疏水性,侧链pKa值和分子量。

        连接方法通常连接滑动窗口中所有残基的PSSM得分以编码残基。 例如,Ahmad和Sarai的工作[20]将目标残基的滑动窗口内所有残基的PSSM评分连接起来构建特征向量。 然后Ahmad和Sarai [20]提出的连接方法被许多分类器使用。 例如,Kuznetsov等人提出的SVM分类器。 [23]是通过结合连接方法,序列特征和结构特征开发的。 Ho等人提出的预测器称为SVM-PSSM。 [24]是通过串联方法开发的。 Ofran等人提出的SVM分类器。 [1]是通过整合连接方法和序列特征(包括预测的溶剂可及性和预测的二级结构)而开发的。

        应当注意,目前的组合方法和连接方法都不包括残基之间的进化信息的关系。然而,许多关于蛋白质功能和结构预测的研究已经表明残基之间进化信息的关系是重要的[25,26],我们提出了一种方法,将进化信息的关系作为预测DNA结合残基的特征。 。该新颖的编码方法,称为PSSM关系转换(PSSM-RT),通过结合残基之间的进化信息的关系来编码残基。除了进化信息,序列特征,物理化学特征和结构特征对预测也很重要。然而,由于大多数蛋白质的结构特征不可用,我们在这项工作中不包括结构特征。在本文中,我们包括PSSM-RT,序列特征和物理化学特征来编码残留物。另外,对于DNA结合残基预测,存在比蛋白质序列中的结合残基更多的非结合残基。然而,大多数先前的方法不能利用大量非结合残基进行预测。在这项工作中,我们通过结合SVM和随机森林来提出一个集成学习模型,以充分利用大量的非结合残基。通过将PSSM-RT,序列特征和物理化学特征与集合学习模型相结合,我们开发了一种新的DNA结合残基预测分类器,称为EL_PSSM-RT。 EL_PSSM-RT(http://hlt.hitsz.edu.cn:8080/ PSSM-RT_SVM /)的Web服务可供生物研究界免费访问。

Methods

       正如许多最近发表的着作[27-30]所示,生物信息学中的完整预测模型应包含以下五个组成部分:验证基准数据集,有效特征提取程序,有效预测算法,一套公平评估标准 和一个Web服务,使开发的预测器可公开访问。 在下文中,我们将详细描述我们提出的EL_PSSM-RT的五个组成部分。 

Datasets

       为了评估EL_PSSM-RT对DNA结合残基预测的预测性能,并将其与其他现有的最先进的预测分类器进行比较,我们使用两个基准数据集和两个独立的数据集。

       第一个基准数据集PDNA-62由Ahmad等人构建。 [14]并含有来自蛋白质数据库(PDB)的67种蛋白质[31]。 PDNA-62中任何两种蛋白质之间的相似性小于25%。第二个基准数据集PDNA-224是最近开发的用于DNA结合残基预测的数据集[32],其包含224个蛋白质序列。通过使用25%的截断成对序列相似性,从从PDB检索的224个蛋白质DNA复合物中提取224个蛋白质序列[31]。对这两个基准数据集的评估是通过五重交叉验证进行的。为了与未在上述两个数据集上评估的其他方法进行比较,使用两个独立的测试数据集来评估EL_PSSM-RT的预测准确度。第一个独立数据集TS-72包含来自60个蛋白质-DNA复合物的72个蛋白质链,其选自DBP-337数据集。最近由Ma等人提出了DBP-337。 [33]并含有来自PDB的337种蛋白质[31]。 DBP-337中任何两条链之间的序列同一性小于25%。 DBP-337中剩余的265个蛋白质链(称为TR265)用作TS-72测试的训练数据集。第二个独立数据集TS-61是一个新的独立数据集,本文采用两步法构建了61个序列:(1)从PDB中检索蛋白质-DNA复合物[31]; (2)用截短的成对序列相似性25%筛选序列,并用CDHIT去除与PDNA-62,PDNA-224和TS-72中序列具有> 25%序列相似性的序列[34]。 CD-HIT是局部对齐方法,短字过滤器[35,36]用于聚类序列。在CDHIT中,聚类序列标识阈值和字长分别设置为0.25和2。通过使用短字要求,CD-HIT跳过大多数成对比对,因为它通过简单的单词计数知道两个序列的相似性低于某个阈值。对于TS-61的测试,PDNA-62用作训练数据集。这四个数据集中的蛋白质序列的PDB id和链ID分别列在附加文件1的A,B,C,D部分中。

       在上述4个数据集中,阳性和阴性样品由以下标准定义[18,37,38]:如果残基的侧链或骨架原子属于截止值,则蛋白质中的残基被视为结合残基。 与复合物中伴侣DNA分子的任何原子的距离为3.5? 否则,残留物被认为是非结合残基。 表1中显示了四个数据集的阳性样本和阴性样本的数量。

评估指标

        为了评估EL_PSSM-RT对DNA结合残基预测的性能,使用灵敏度(SN),特异性(SP),强度(ST),准确度(ACC)和Mathews相关系数(MCC)作为性能指标。 它们是生物信息学中的典型评估指标,并且已被许多作品广泛使用。 可以根据以下公式计算五个度量。

其中TP是真阳性的数量,TN是真阴性的数量,FP是假阳性的数量,FN是假阴性的数量。

      由于所有四个数据集都比正面训练示例具有更多的负面训练示例,因此单独使用ACC可能产生偏差结果,例如简单地将所有测试样本分类为非结合残基将给出非常高的ACC值。许多文献表明,当正负样本的数量不平衡时,ST(SN和SP的平均值)可以对分类器进行更合适的评估[14,38,39]。此外,由于MCC可以测量预测结果与实际结果之间的匹配程度,因此它也是适当的评估指标。此外,接收器工作特性(ROC)曲线[40]和ROC曲线下面积(AUC)[41]是两种更常用的衡量不平衡数据集性能指标的指标。通过绘制通过改变预测因子的分类阈值计算的假阳性率(即1-特异性)的真实阳性率(即灵敏度)绘制ROC曲线。 AUC是ROC曲线下的面积,其值限于-1.0和1.0之间的闭合间隔。 AUC为1.0和0.5分别表示最佳性能和随机性能。因此,ST,MCC,AUC和ROC用作主要性能指标,其他三个指标仅用于参考。

Sequence context
        在DNA结合残基预测中,残基是用于训练和测试的样品[16,42]。 除目标残基外,其相邻残基也对其功能有重大影响。 因此,需要在预测中考虑目标残基的序列背景。 为了使用序列上下文进行预测,我们通过大小为w的滑动窗口定义残差数据实例。 滑动窗口是序列片段,其中靶残基位于中间,并且任一侧的(w-1)/ 2个相邻残基。 除目标残基外,滑动窗口中的所有残基都被认为是序列背景。 左侧和右侧的(w-1)/ 2个相邻残基分别称为左序列上下文和右序列上下文。 滑动窗口的长度w应该是通过实验设置的奇数。

给定长度为L的蛋白质序列P表示为

其中R1代表蛋白质序列P的第一个残基,R2代表第二个残基,依此类推。目标残基Ri的残基方式实例Fi可表示为

其中除了目标残基Ri之外,残基方式实施例Fi中的所有残基定义其序列背景。

Features of data instance
      进化信息由进化过程产生,对蛋白质结构和功能预测很重要。 PSSM是进化信息的通用表示,并已用于许多生物信息学研究,包括蛋白质功能注释和蛋白质结构预测[43-47]。 对于本研究中的每个蛋白质序列,其PSSM是通过运行PSI-BLAST程序[48]产生的多序列比对来计算的,通过三次迭代搜索非冗余(NR)数据库,其中E值截止值为0.001。 对于长度为L的蛋白质,PSSM通常表示为具有L×20维度的基质。 20表示20种标准类型的残留物。 对于使用式(7)中定义的表示的序列片段Fi,其PSSM可以表示为维度为w×20的矩阵。因此,目标残基Ri的残基式实例Fi的PSSM可以表示为

其中Si,r是序列片段中位置i处残基类型r的保守分数。

在计算PSSM-RT之前,PSSM中的保守分数应该在0和1之间归一化。因此,对于给定的Si,r,其归一化值Si,r(N)可以用下面给出的逻辑函数表示

PSSM-RT包含三类特征:残留保守,配对关系和多关系。 残留物保守含有目标残基及其背景残基的PSSM分数。 对关系被定义为两个位置之间的进化信息的关系,例如,位置i的残差r1和位置j的残差r2之间的对关系被计算为

 

        由于残差数据实例中的每个位置都具有20个标准残差类型的保守分数,因此可以针对任何两个位置计算400种类型的关系。
        由于残差数据实例中的目标位置受其所有上下文位置的影响,因此目标位置与其上下文位置之间的所有对关系需要包括在预测中。 因此,残差数据实例的配对关系被定义为目标位置与其所有上下文位置之间的配对关系的总和。 例如,以i为目标位置的残差数据实例的残差r1和残差r2之间的对关系被表示为

其中j是目标位置的上下文位置。

多关系是多个残基之间的进化信息关系。 我们考虑两种多关系:左多关系,包括目标残基与其左上下文残基之间的关系,以及包括目标残基与其右上下文残基之间关系的正确多关系。 对于残差r,目标位置i处的残差数据实例的左多重关系被表达为

 

对于残差r,目标位置i处的残差数据实例的正确多关系被表达为 

       因此,由PSSM-RT构造的特征空间的尺寸是(20 * w + 20 * 20 + 2 * 20)。
      除了PSSM-RT之外,还有两种其他类型的功能可用于此工作:序列特征和生理化学特征。 数据集中给出的序列特征包括氨基酸组成,预测的二级结构,预测的溶剂可及区域和靶残基的同一性。 理化特征包括氨基的pKa值,羧基的pKa值,电子 - 离子相互作用势(EIIP)[49],孤电子对数(LEPs),维纳指数[50],分子量[50],侧链 pKa值和疏水性指数。 预测的二级结构和预测的溶剂可及区域分别通过应用PSIPRED [51]和SABLE [52-54]获得。

集成学习

      集成学习现在是机器学习和模式识别研究的一个活跃领域。集成学习首先从训练数据集中学习几个基本预测变量,然后将它们组合成一个集合预测变量。集成学习旨在利用不同基础预测器的不同学习能力。有三种广泛使用的集合策略来训练基础预测器:不同数据子集的训练,不同特征子集的训练和不同分类算法的训练。
       在DNA结合残基预测中,非结合残基大大超过结合残基。为了获得平衡的训练数据集,许多预测因子选择丢弃大部分非结合残基[33]。然而,丢弃的非结合残基可能是改善预测性能的有用信息。为了更好地使用所有可用数据,我们建议通过组合所有三种集合策略来使用集成学习。然后使用我们提出的方法,称为EL_PSSM-RT,将集合学习模型与PSSM-RT相结合。 EL_PSSM-RT的系统架构如图1所示。注意EL_PSSM-RT包含4个步骤:数据集分区,特征提取,基本分类器训练和基本分类器选择。在数据集分区的步骤1中,训练数据集中的非结合残基首先被分成n个非重叠子集,其中样本数大致等于所有结合残基的样本数。然后,通过将结合残基添加到n个亚组非结合残基中来形成n个新的平衡训练数据集。在特征提取的步骤2中,针对残差提取三类特征,包括序列特征,生理化学特征和由PSSMRT提取的进化信息。在基础分类器训练的步骤3中,SVM分类器和随机森林分类器都被每个新形成的训练数据集上的每个特征类别使用。使用SVM和随机森林是因为它们被证明具有良好的DNA结合残基预测预测性能[18,19,55]。因此,在该步骤中训练6 * n(2 * 3 * n)个基础预测因子。在基本分类器选择的步骤4中,基于分集设计基于分集的动态排序和选择方法,以使用迭代方法来构建集合预测器。在我们的动态排名和选择方法中,最初随机选择基本预测器。然后在每次迭代中,首先基于它们与所选择的基础预测器的多样性对所有未选择的基础预测器进行排序,然后是选择步骤,其中具有最大分集的那个将被添加到所选择的预测器组中。两个基本分类器之间的差异通过具有来自两个分类器的不同标签的样本数量与验证数据集中的样本总数的比例来测量。当所选择的预测变量集的分集的加法小于指定标准时,终止迭代。数据集的确切停止标准由验证数据集确定,验证数据集与感兴趣的数据集分开。最后,组合所选择的基础预测变量以使用简单多数投票策略构建集合预测器。

图1 EL_PSSM-RT的框架图。 EL_PSSM-RT包含4个步骤。 第一步是将训练数据集中的非结合残基分成n个子集,并通过分别组合n个非结合残基和结合残基的子集来构建n个新的训练数据集。 第二步是提取所有残留物的三类特征。 第三步是根据每个训练子集上的每个类别的特征训练SVM分类器和随机森林分类器。 第四步是使用动态排序和选择方法来选择彼此之间具有最大差异的基础预测变量来构建集合预测器

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值