FastRNABindR:快速准确预测蛋白质-RNA界面残基

研究表明,FastRNABindR是一种新的蛋白质-RNA接口预测工具,通过随机抽样减少BLAST数据库大小,显著提高了预测速度,同时保持了准确性。与RNABindR相比,FastRNABindR在处理大规模数据时速度快两个数量级,且预测性能不受影响。该方法对于蛋白质-RNA界面预测的实用性和效率具有重要意义。
摘要由CSDN通过智能技术生成

paper

单位:宾夕法尼亚州立大学 信息科学与技术学院

Abstract

广泛的生物学过程,包括基因表达的调节、蛋白质的合成以及许多病毒的复制和组装都是由RNA-蛋白质相互作用介导的。然而,蛋白质-RNA复合物结构的实验测定是昂贵的,而且在技术上具有挑战性。因此,已经开发了许多计算工具来预测蛋白质-RNA界面。一些最先进的蛋白质-RNA界面预测因子依赖于基于位置特定评分矩阵(PSSM)的蛋白质序列编码。生成PSSM所需的计算工作量严重限制了蛋白质-RNA界面预测服务器的实用价值。在这项工作中,我们实验了两种方法,随机抽样和序列相似性缩减,以从UniRef100中5000多万个蛋白质序列中提取具有代表性的蛋白质序列参考数据库。我们的结果表明,随机抽样的数据库产生更好的PSSM配置文件(根据用于生成配置文件的命中次数、生成的配置文件到使用整个UniRef100数据生成的相应配置文件的距离,以及使用这些配置文件训练的机器学习分类器的准确性)。基于我们的结果,我们开发了FastRNABindR,这是RNABindR的改进版本,用于使用随机抽样的1%的UniRef100序列生成的PSSM图谱来预测蛋白质-RNA界面残基。据我们所知,FastRNABindR是唯一的蛋白质-RNA界面残基预测在线服务器,它需要为查询序列生成PSSM配置文件,并在每次提交时接受数百个蛋白质序列。我们为蛋白质-RNA界面残基分类任务确定最佳BLAST数据库的方法有可能大大加快蛋白质-蛋白质和蛋白质-DNA界面其他基于氨基酸序列的预测因子的实用价值。

Introduction

蛋白质-RNA相互作用在许多生物学过程中起着关键作用,包括蛋白质合成、DNA修复、DNA复制、基因表达调控和病毒复制[1-5]。

由于实验解决蛋白质-RNA复合物的3D结构的高成本和技术困难[6,7],所解决的结构的数量只占可能的蛋白质-RNA复合物的一小部分[8]。因此,已经开发了几种工具来计算预测蛋白质-RNA界面[8-10]。这些方法大致分为:i)基于结构的方法(例如,[11-15]);和基于序列的方法(例如,[9,16-22])。基于结构的方法将查询蛋白质的(已解决或预测的)未结合结构作为输入,而基于序列的方法将查询蛋白质的初级序列作为输入。最近的两项比较研究[8,9]表明,最先进的基于序列的蛋白质-RNA预测器(例如,使用基于位置特定计分矩阵(PSSM)的蛋白质序列表示的机器学习方法训练的那些)与基于结构的预测器相比具有竞争力。最近的一项比较研究[23]表明,基于PSSM的方法比基于氨基酸残基的理化特性的方法性能更好。

蛋白质的PSSM图谱是使用PSI-BLAST程序生成的,PSI-BLAST程序是NCBI BLAST包的一部分[24]。给定查询氨基酸序列,PSI-BLAST对照蛋白质序列的参考数据库(称为BLAST数据库)搜索查询序列,以确定查询序列(例如,HITS)的同源性,并使用收集的HITS和查询序列的多序列比对来生成PSSM简档。不幸的是,PSSM轮廓的生成非常耗时,因此限制了现有基于序列的方法在大规模数据上的实际应用。事实上,绝大多数的蛋白质-RNA界面预测方法,以在线网络服务器的形式实现,一次只能提交一个蛋白质序列(例如,参见BindN+[19]和PPRInt[20])。减少PSI-BLAST运行时间的一种方法是使用可以在由数万个处理器组成的高性能计算平台上执行的NCBI BLAST的并行实现(例如,mpiBLAST[25])。然而,并不是所有的研究人员都能接触到如此高性能的计算平台。

在此背景下,我们探索了一种减少PSI-BLAST运行时间的替代方法,即减小用于构建PSSM配置文件的BLAST数据库的大小。在这项工作中,我们解决了以下问题:(I)给定蛋白质序列的BLAST数据库(例如UniRef数据库[26])D,是否存在D的子集可以被PSI-BLAST使用而不会使由此产生的蛋白质-RNA界面预测器的预测性能明显恶化?(Ii)如果是这样的话,如何才能获得满足我们标准的最小可能的D子集?(Iii)PSI-BLAST使用的序列参考数据库大小的减少如何转化为PSI-BLAST(以及因此依赖于PSI-BLAST的蛋白质-RNA接口预测器)所需的内存和运行时间的相应减少?据我们所知,这是第一次系统地研究BLAST数据库的大小与PSI-BLAST的性能(在内存使用和运行时间方面)、生成的PSSM的质量以及所开发的基于PSSM的蛋白质-RNA界面预测器的准确性之间的成对关系。基于我们的结果,我们开发并实现了FastRNABindR,这是原始RNABindR蛋白质-RNA接口预测服务器的改进版本[9]。FastRNABindR比RNABindR快两个数量级,预测性能没有任何下降。FastRNABindR已作为在线网络服务器提供给科学界,网址为:http://ailab.ist.psu.edu/FastRNABindR/。与RNABindR将提交的序列限制在最多20个不同,FastRNABindR接受每份提交的最多500个蛋白质,并在大约一小时内返回预测结果。这项研究为显著加快广泛的蛋白质序列分类和序列标记任务奠定了基础,这些任务利用了基于PSSM的查询序列的表示,包括蛋白质-DNA界面残基预测[27,28],蛋白质溶剂可及性预测[29-32],蛋白质动力学预测[33,34]和候选疫苗[35,36],以促进对大量蛋白质的高通量分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值