DeepFunc:一种深度学习框架,可根据蛋白质序列和相互作用准确预测蛋白质功能

DeepFunc是一种深度学习框架,能够利用蛋白质序列和PPI网络信息准确预测蛋白质功能。通过结合InterPro提供的结构域、家族和基序信息与PPI网络的拓扑特征,DeepFunc在基准测试和CAFA3数据集上表现出优越的性能,超过其他现有方法。
摘要由CSDN通过智能技术生成

摘要
蛋白质功能的诠释对于从分子水平理解生命具有重要作用。高通量测序产生了大量的原始蛋白质序列,只有大约1%的蛋白质序列被人工标注了功能。函数的实验性注释是昂贵的、耗时的,并且跟不上序列号的快速增长。这促使了预测蛋白质功能的计算方法的发展。提出了一种新的深度学习框架DeepFunc,该框架能够从蛋白质序列和PPI网络中准确预测蛋白质的功能。更准确地说,DeepFunc使用一个长而稀疏的二进制向量来编码从InterPro工具收集的与输入蛋白质序列相关的结构域、家族和基序的信息。该向量经过两层神经网络处理后得到一个低维向量,该向量与蛋白质相互作用和功能连接中提取的拓扑信息相结合。组合后的信息由预测蛋白质功能的深层神经网络处理。DeepFunc在基准测试数据集和蛋白质功能注释算法关键评估(CAFA)3数据集上进行了实证和比较测试。实验结果表明,DeepFunc在测试数据集上的性能优于现有方法,在CAFA3数据集上获得了最高的Fmax=0.54和AUC=0.94。
1 介绍
蛋白质具有许多细胞功能,在许多生物过程中扮演着不可或缺的角色。高通量测序技术正在更快的速度产生蛋白质数据,但对功能的了解却滞后。只有大约1%的蛋白质已经被实验探测,并在UniProt数据库中被手动注释。[4]蛋白质的功能可以通过体外和活体实验来阐明。[5]然而,这些实验方法昂贵、耗时,并且不能随着蛋白质数据数量的增长而扩展。这促使人们需要开发运行时高效和准确的计算方法,直接从蛋白质数据预测蛋白质功能。
人们已经提出了许多计算方法来预测蛋白质的功能。一般来说,研究人员开发了一种利用蛋白质序列预测蛋白质功能的管道,其步骤如下:选择有用的特征对输入蛋白质进行编码,构建训练和测试数据集,选择合适的算法,并对性能进行评估。最流行的计算方法之一是BLAST(将一个蛋白质和DNA序列和各种数据库中的其他序列进行比对),它使用相似序列的函数在功能上注释输入序列。然而,这种方法有两个局限性:1)许多输入序列不能找到相似的和功能注释的蛋白质;2)一些蛋白质可能具有相似的功能,但序列相似性较低。因此,这些基于同源的方法得到的结果并不总是准确的。[6]克服这一挑战的一种方法是从输入蛋白质链中亚基(具有四级结构的蛋白质分子中,每条具有三级结构的多肽链单位称为亚基或亚单位。)或残基中提取有用的信息。例如,Das和他的合作者提出了一种基于域的方法来预测蛋白质功能。Wang和他的合作者提出了基于基序的蛋白质功能分类器。此外,一些方法利用残基水平信息来预测蛋白质功能。这些信息可以包括从输入蛋白质序列中提取的二级结构,或者像FFPred3方法那样的二级结构、无序区、信号肽和基序。最后,有几种方法依赖于PPI(蛋白质与蛋白质的相互作用)派生的信息来准确预测蛋白质功能。这些方法背后的关键思想是,在PPI网络中具有相似拓扑特征的蛋白质可能具有相似的功能。此外,一些蛋白质功能预测者还利用了其他类型的数据,如遗传相互作用、基因组背景、蛋白质结构、和基因表达。我们关注两类当前的预测者:一类是基于序列的方法,它覆盖了结构域、基序和残基水平信息的使用;另一类是基于PPI的方法,它依赖于从这些网络中提取的信息。这两类方法在某种程度上利用了互补的信息。虽然拓扑信息将被用来描述基于蛋白质-蛋白质相互作用的蛋白质功能,但基于序列的方法可以有效地识别含有信号肽或跨膜蛋白的蛋白质,这些蛋白质不一定很容易使用PPI进行预测。
本文探讨了使用深度学习来有效地处理和组合基于序列和基于PPI的方法。虽然深度学习在几个相关的预测问题中被证明可以提高预测性能,但在结合这两种类型的信息来预测DeepGO模型中的蛋白质功能时,它只被使用过一次。我们设计并对比测试了一种新的深度学习模型DeepFunc。我们基于序列的方法依赖于生成信息的高维向量(35000个维),该向量描述了由InterProScan提取的域,家族和主题。必须先减少这些数据,然后才能将其与从PPI网络提取的相对低维的数据组合在一起。我们结合了EggNOG (同源蛋白数据库)的功能链接和STRING (蛋白质相互作用数据库)的相互作用来构建PPI网络。我们使用Deepwalk算法来提取描述基础PPI网络的拓扑特征的综合集合。DeepFunc的创新之处在于将深度网络用于两个不同的目的:将基于高维序列的方法转换为信息丰富的低维格式,并将这些数据与从PPI获得的拓扑信息

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值