论文笔记：DELPHI:预测蛋白质相互作用位点的精确深度集成模型

最新推荐文章于 2023-09-04 22:23:14 发布

wangpan007

最新推荐文章于 2023-09-04 22:23:14 发布

阅读量5.5k

点赞数 5

分类专栏：生信论文神经网络文章标签： python 神经网络机器学习人工智能深度学习

本文链接：https://blog.csdn.net/wangpan007/article/details/109551703

版权

生信论文同时被 2 个专栏收录

19 篇文章 45 订阅

订阅专栏

神经网络

5 篇文章 1 订阅

订阅专栏

Web服务器：www.csd.uwo.ca/~yli922/index.php
特征计算流水线:github.com/lucian-ilie/DELPHI
联系邮箱： ilie@uwo.ca
补充资料：

摘要：

动机：蛋白质通常通过与其他蛋白质相互作用来发挥功能，这就是为什么准确预测蛋白质-蛋白质相互作用(PPI)结合位点是一个基本问题。实验方法既缓慢又昂贵。因此，人们正在努力提高计算方法的性能。
结果：我们提出了一种新的基于序列的深度学习预测PPI结合位点的方法–Delphi(深度学习预测高概率蛋白相互作用位点)。Delphi有一个集合结构，它结合了CNN和RNN组件，并采用了微调技术。除了现有的九个特性之外，还使用了三个新特性：HSP、位置信息和ProtVec。我们在5个数据集上综合比较了Delphi和9个最先进的程序，尽管Delphi的训练数据集与测试数据集的相似性最低，但Delphi在所有指标上都优于竞争对手的方法。在最重要的指标AUPRC和MCC上，它分别比第二好的程序高出18.5%和27.7%。我们还证明，这种改进本质上是由于使用了集成模型，特别是这三个新特性。用Delphi分析表明，这与蛋白质结合残基(PBR)和进化保守性强的位点有很强的相关性。此外，德尔福预测的PBR站点与Pfam的已知数据非常吻合。Delphi以开源独立软件和Web服务器的形式提供。

一、介绍

蛋白质-蛋白质相互作用(PPI)在许多细胞过程中起着关键作用，如信号转导、运输和新陈代谢(Zhang和Kurgan，2018)。蛋白质通过与其他蛋白质形成化学键相互作用。结合氨基酸残基是蛋白质相互作用的结合位点。检测PPI结合位点有助于理解细胞调控机制，定位药物靶点，预测蛋白质功能(Bonetta，2010)。像PDB(Berman等人，2002)这样的数据库存储从每个蛋白质的3D结构得到的蛋白质结合位点信息。
蛋白质-蛋白质相互作用(PPI)在许多细胞过程中起着关键作用，如信号转导、运输和新陈代谢(Zhang和Kurgan，2018)。蛋白质通过与其他蛋白质形成化学键相互作用。结合氨基酸残基是蛋白质相互作用的结合位点。检测PPI结合位点有助于理解细胞调控机制，定位药物靶点，预测蛋白质功能(Bonetta，2010)。像PDB(Berman等人，2002)这样的数据库存储从每个蛋白质的3D结构得到的蛋白质结合位点信息。
学习结构对PPI结合位点分类问题至关重要。以前探索的体系结构包括随机森林(魏等人，2016；Wang等人，2019年)、支持向量机(wei等人，2016)、Logistic回归(Zhang和Kurgan，2019年)、贝叶斯分类器(Murakami和Mizuguchi，2010)、人工神经网络(Singhet等人，2014)。最近，卷积神经网络(CNN)(曾等人，2019年)和递归神经网络(RNN)(张等人，2019a)也被应用于解决这一问题。
本文介绍了一种新的基于序列的PPI结合位点预测方法–Delphi(高概率蛋白相互作用位点的深度学习预测)，该方法结合了CNN和RNN结构并结合微调技术。它使用12个特征组来表示蛋白质序列，包括三个新特征：高得分片段对(HSP)、位置信息和简化的3-聚氨基酸嵌入(ProTV Ec1d)。我们在5个数据集上综合比较了Delphi和9个最先进的程序。Delphi提供了所有指标中最好的预测。
DELPHI首先，构建了一种结合CNN和RNN的新型微调集成模型。其次，介绍了首次用于PPI结合位点预测的三个新特征。第三，提供了一个数据处理和特征构造套件，旨在减轻用户繁琐的特征计算的难度。
DELPHI对蛋白质结合位点的预测与高度进化保守的位点之间显示出很强的相关性。虽然这种关系并不是排他性的，但许多结合位点将被保守以维持蛋白质结构。三种不同的哺乳动物蛋白质证明了这一点。此外，德尔福的预测与Pfam数据库中已知的蛋白质结合残基(PBR)进行了比较，这与Pfam数据库中已知的蛋白质结合残基(PBR)非常一致。

二、材料和方法

（一）、数据库

遵循现代机器应用程序的开发流程，我们使用三组数据来训练和评估Delphi的性能：培训、验证和测试。该模型在训练数据上进行训练，并在验证数据上进行验证，以确保低方差，即避免过拟合。经过多次迭代调整，得到了模型，并在独立的测试数据上运行，然后报告了在测试数据上的性能。请注意，该模型在训练和验证过程中从不观察测试数据。

（二）、测试集

比较评估中使用了五个数据集。我们根据数据大小为它们命名：Dset_186、Dset_72、Dset_164、Dset_448和Dset_355。前四个是来自以前研究(Murakami和Mizuguchi，2010)(Dhole等人，2014)(Zhang和Kurgan，2019年)的公开可用的数据集，最后一个是Dset_355，是Dset_448的子集。DSET_186、DSET_72、DSET_164作为基准数据集已被众多出版物广泛使用和探索；DSET_448是较新的。
Dset_186和Dset_72是由Murakami和Mizuguchi(2010)构造的。DSET_186是在PDB收集(Berman等人，2002年)的基础上构建的，其中应用了六步过滤过程来提炼数据，包括去除缺失残基的结构、去除具有相同UniprotKB/Swiss-Prot的链、去除跨膜蛋白、去除二聚体结构、去除一定范围内具有埋藏表面可及性和界面极性的蛋白质以及消除相似性。DSET_72是基于蛋白质基准集3.0版(Hwanget et al.，2008)构建的，去掉了与DSET_186的相似性。
Dset_164是由Dholeet et al.(2014)用与Dset_186和Dset_72相同的过滤技术构建的，这些过滤技术与Dset_186和Dset_72自Dset_186(2010年6月至2013年11月)发表以来在PDB中新注释的蛋白质上的过滤技术相同。
DSET_448是由张和库尔根(2019年)构建的。DSET_448的原始数据来自BioLip数据库(Yang等人，2012年)，在该数据库中，如果残基的原子与给定蛋白质伙伴的原子之间的距离<0.5ã加上两个原子的V和Der Waals半径之和，则定义结合位点。通过去除蛋白质片段、将BioLip序列映射到UniProt序列以及进行聚类，进一步处理原始数据，使得在DSET_448中没有超过25%的相似性。这个数据集是最新的，也是最大的。DeST_448不能用于测试顶级竞争程序之一DLPred，因为它包含93种蛋白质，与DLPred的训练集有40%以上的相似性。我们通过从DSET_448中去除这些蛋白质构建了DSET_355。

（三）、训练集和验证集

先从最近的调查报告中获得了大量、高质量的数据集(Zhang等人，2019b)。在这个数据集中，UniProt序列在残基水平上用蛋白质、DNA、RNA和小配体结合信息进行注释。我们对该数据集进行了进一步的处理，如下所示。首先，我们只保留了含有蛋白质-蛋白质结合信息的序列，重点放在蛋白质-蛋白质结合上。然后，我们从训练数据集中删除了与五个测试数据集中的任何序列的相似性超过25%的序列，如PSI-CD-HIT(Li and Godzik，2006；Fu等人，2012)所测量的。众所周知，训练和测试数据集之间的相似序列对机器学习模型的评估性能的泛化有负面影响。此外，通过基于比对的方法可以准确预测相似性水平更高的蛋白质(Zhang和Kurgan，2018年)。在25%到50%的范围内，不同的程序会选择不同的相似性阈值。我们选择了最严格的25%的值来与最接近的竞争对手之一Scriber(张和库尔根，2019年)进行公平的比较。我们使用PSI-CD-HIT，因为它快速、准确，并且在CD-HIT套件中维护良好。我们在其余的蛋白质序列上再次运行了PSI-CD-HIT，所以没有一个序列的相似性超过25%。这确保了训练数据尽可能多样化，以及训练数据集和验证数据集之间的不同之处。构建了9982个蛋白质序列的数据集。我们从其中随机选取八分之一(8872)作为训练数据集，九分之一(1110)作为验证数据集。

（四）、输入特征

DELPHI使用了12个特性组，如表2所示，其中还给出了维度和每个特性组。因此，每个输入由39维特征向量轮廓表示。据我们所知，这项研究是第一次将热休克蛋白、ProTV ec1d和位置信息用于结合位点分类问题。下面将描述这两个新特征中的每一个的计算。

在这里插入图片描述
表1.用于训练、验证和测试的数据集。这些列按顺序给出了数据集名称、每个数据集中的蛋白质数量、残基总数、结合数量、每个数据集中的非结合残基数量以及结合残基占总残基的百分比

在这里插入图片描述
表2.DELPHI使用的功能组。第一列表示每个功能的名称。第二列描述了用于获取该功能的程序。“Load”意味着特定氨基酸的值是从以前的工作中得知的，并且它被加载到Delphi程序中。“Compute”表示Delphi对该功能执行额外的计算。最后一列显示了每个功能组的维度。完整的细节在正文中给出。

高得分片段对(HSP)：HSP是两个蛋白质之间的一对相似的子序列。相同长度的两个子序列之间的相似性通过评分矩阵(如PAM和Blosum)来衡量。Sprint(Li和Ilie，2017)用于计算所有HSP，因为它在训练和测试中快速准确地检测所有蛋白质之间的相似性。获得热休克蛋白后，测试蛋白P的第i个残基的分数P[i]，表示为热休克蛋白分数(P[i])。假设我们在P和训练蛋白Q之间有一个HSP(u，v)，使得u覆盖残基P[i]，也就是说，P中的位置i在u覆盖的范围内。设j是Q中与i对应的位置，也就是说，从i开始到i的距离INP与Q中从v开始到j的距离相同。如果Q[j]是已知的相互作用残基，那么我们将P[i]和Q[j]之间的PAM120分数相加。
在这里插入图片描述
3-聚氨基酸嵌入(ProTV Ec1d)：我们在ProTV EC(Asgari and Mofrad，2015)的基础上开发了这一功能。ProTV EC使用word2vec(Mikolov等人，2013年)为每个氨基酸3-聚体构建100维嵌入。在(Asgari and Mofrad，2015)中，ProTV EC可以应用于蛋白质家族分类、蛋白质无因化、结构预测、无序蛋白质识别和蛋白质-蛋白质相互作用预测等问题。由于在我们的程序中使用ProTV EC嵌入显著降低了深度学习模型的速度，特别是在训练期间，我们将100维向量替换为一维值，即100个分量的总和；我们称之为ProTV ec1d。根据我们的测试，ProTV ec1d在其他特征方面达到了与protv ec相同的预测性能。
在计算了所有特征向量之后，使用公式(1)将每个行向量中的值归一化为0到1之间的数字，其中v是原始特征值，并且max和min分别是在训练数据集中观察到的最大和最小值。这是为了确保每个要素组具有相同的数值比例，并帮助模型更好地收敛。
在这里插入图片描述
##（五）、模型架构
DELPHI架构灵感来自于整体学习。设计的直觉是，模型的不同组件捕捉不同的信息，另一个深度神经网络被训练成只选择最有用的。如图1所示，该模型由三部分组成：卷积神经网络(CNN)组件、递归神经网络(RNN)组件和集成组件。CNN和RNN组件的核心层是卷积和双向门控递归单元(GRU)层。合奏模型对前两个分量的输出进行解码。
该模型的另一个非常有用的特点是它的多对一结构，这意味着许多残基的信息被用来预测中心单个残基的结合倾向。如图2所示，对于作为预测目标的每个氨基酸，以氨基酸位置为中心的31个大小的窗口被用来从邻近的30个残基收集信息，以帮助预测。一个滑动窗口被用来捕捉每个31-mer。尺寸31是通过实验确定的。序列的开始和结束部分用零填充。多对一结构有两个优点。首先，它是一种数据增强技术。深度学习模型需要大量的数据进行训练，与图像分类器相比，蛋白质组学中的模型能够获得的数据要少几个数量级。在训练过程中多次使用每个残基有助于模型更好地学习。其次，它使模型更具稳健性。蛋白质序列的长度从不到一百到几千不等，大多数多对多模型的固定输入长度接近500。在训练过程中，通常选择长度在500左右的序列。然而，在测试过程中，输入序列是随机的，需要填充或切成碎片。训练和测试之间的平均长度不同可能会使模型变得不那么通用。

（六）、CNN模型架构

CNN模型一具有简洁的结构：一个卷积层、一个最大层、一个平坦层和两个完全连通的层。对于每个大小为31的输入子序列，构建大小为39×31的2D特征轮廓。2D向量被重塑为3D，然后传递到卷积2D层，随后是最大合并层。使用卷积和最大值层的直觉是，2D蛋白质剖面向量可以被认为是具有一个通道的图像，并且CNN模型捕捉局部图像中多个要素的组合。结果是平坦的，然后馈入两个完全相连的层，然后丢弃进行正则化。最后一个完全连通的层有一个具有激活函数Sigmoid的单元，因此输出是0到1之间的单个值。值越高，CNN模型声称剩余的是PPI结合位点就越有把握。

（七）、RNN网络的体系结构

RNN组件具有以下结构：一个双向GRU层、一个扁平层和两个完全连接的层。与CNN组件类似，为每个31-mer构建了大小为39 x 31的2D特征配置文件。特征简档被传递到双向门控递归单元(GRU)层，意图记忆31个残基之间的依赖关系和关系。我们将GRU层设置为返回整个序列，而不是返回单个值。结果是平坦的，并馈入两个完全连接的层中，并且有丢失。RNN网络的输出也是0到1之间的单个值。

（八）、综合网络架构

最终将CNN和RNN组合的核心层试图进一步提取蛋白质结合的基本信息，该集合网络将长度为31的序列作为其输入。类似于CNN和RNN分量，构建了39×31的特征向量，并将其传递给卷积层和双向GRU层。卷积层的输出被传递到最大池层，然后被展平。GRU输出也是扁平的。最后一个完全连通的层有一个具有S形激活功能的输出单元，因此最终的输出是0到1之间的单个值，这表明它有成为结合位点的倾向。这是整个模型的最终输出。
在这个整体模型中使用了微调。使用相同的训练/验证数据集来分离CNN网络中的卷积层和RNN网络中的双向GRU层。在CNN和RNN分量上达到最佳性能后，卷积和GRU层的权重被保存到文件中。在集成模型中，卷积和GRU层从文件中加载保存的权重并冻结权重，因此在训练过程中，卷积和GRU层保持不变。训练和验证数据再次仅用于训练系综模型中的完全连接的层。

（九）、实现

该程序是用Kera(Chollet等人，2015)(Python 3.5.2)编写的，后端是TensorFlow GPU(Abadidial，2015)。所有特征仅根据序列计算。我们通过提供所有的计算程序和一个流水线脚本来减轻用户的特征计算负担。我们为用户提供了一个PIP包列表，支持单命令安装，从而简化了系统配置过程。
蛋白质结合残基的分类是一个不平衡的问题。为了解决这一问题，对正负样本赋予不同的类权重(Ting，2002)，使得模型更加关注少数类，即结合位点。这些值由训练数据集中的类分布的逆确定。在我们的程序中，非结合位点和结合位点的权重分别为0.55和4.97。
在训练过程中，我们将数据洗牌到每个缓存中，由于使用滑动窗口来提取每个31-mer，相邻的数据条目非常相似；只有第一个和最后一个残基与前一个和下一个数据条目不同。对整个训练数据进行洗牌，使每一批中的输入多样化。我们在实验中训练了有数据洗牌和没有数据洗牌的模型，并且洗牌后的数据呈现出更好的预测效果。
在这里插入图片描述

图一：DELPHI结构，左：模型的CNN组件。中间：模型的RNN组件。右：合奏模式

在这里插入图片描述
图二、多对一预测。大小为31、步幅1的滑动窗口被放在输入蛋白质序列的顶部。每次提取长度为31的子序列。该模型预测了每个亚序列的中间氨基酸与蛋白质结合的倾向。

（十）、参数调整

参数和超参数是在对验证集应用早期停止(Prechelt，1998)时基于训练数据集经验地选择的。当检测到验证集上的性能下降时，提前停止会停止训练过程。这是为了避免过度拟合训练数据集。我们选择的所有参数都是以最大化训练数据的准确率-召回率曲线(AUPRC)下的面积为目标的。然后使用已经调好的模型携带所有测试结果。该模型中使用的所有参数和超参数如表3所示。Delphi模型在具有24个CPU(Intel Xeon v4，3.00 GHz)、256 GB内存和Nvidia Tesla K40c GPU的Linux(Ubuntu 16.04)机器上训练CNN组件需要2.1小时，训练RNN组件需要0.5小时，训练集成模型需要1.3小时。
在这里插入图片描述

表3：DELPHI中使用的参数。参数分为四组：CNN、RNN、集成模型和超参数

三、结果

（一）、与其他方法比较

将Delphi与九种最先进的基于机器学习的方法进行了全面的比较。这些方法是根据以下标准选择的。首先，该程序是一种基于序列的方法，因为大多数蛋白质的序列信息都很容易获得。其次，该程序以源代码或Web服务器的形式提供。最后，该程序接受FASTA格式的任何输入序列，并在30分钟内产生平均长度蛋白质的结果。
DLPred和Scriber，分别使用5719和843个训练蛋白。DLPred的训练数据集来自CullPDB数据集(Wang和Dunbrack Jr，2003)，并由作者进一步过滤。Scriber训练数据集最初来自BioLip数据库。该数据集还包含Scriber使用的DNA、RNA和配体的蛋白质结合信息

（二）、评估方案

与以往的研究类似，我们使用敏感度、特异度、精确度、准确度、F1-Score(F1)、Matthews相关系数(MCC)、接收者操作特征曲线下面积(AUROC)和精确度-召回率曲线下面积(AUPRC)来衡量预测性能。所有程序都输出每个氨基酸的预测值，从而可以绘制接收器工作特性(ROC)曲线和精确度-召回(PR)曲线。AUROC和AUPRC是使用Scikit-Learn计算的(Pedregosa等人，2011年)。曲线下面积是与阈值无关的，并且传达了程序的整体性能测量。其余的度量是使用绑定阈值计算的，该绑定阈值是在从每个节目获得预测分数之后确定的。由于每个程序的输出具有不同的规模，因此对于每个程序，我们选择阈值，以便对于给定的测试数据集，超过阈值的预测得分数量等于数据集中的实际结合位点数量。
度量的计算公式如下，其中真阳性(TP)和真阴性(T-N)分别是正确预测的结合位点和非结合位点，假阳性(F-P)和假阴性(F-N)分别是错误预测的结合位点和非结合位点。
在这里插入图片描述
表4.DSET_448和DSET_355的性能比较。节目按AUPRC升序排序。粗体字体表示最佳效果

表5.使用相同指标的DSet_186、DSet_164和DSet_72的性能比较。粗体字体表示最佳效果

（三）、预测绩效的比较评估

1、DSET_448和DSET_355的性能比较

首先将DELPHI模型与Dset_448上的8个程序进行了比较。这个数据集是最大的，也是最近发布的。如表4所示，德尔福在所有指标上都超过了竞争对手在AUPRC和MCC上的F值分别为17.4%和18.3%，而第二好的程序Scriber的F值分别为17.4%和18.3%。
Dset_448不能用于DLPred，因此我们比较了Dset_355上的所有程序。如表4所示，DLPred的性能与第二好的预测器Scriber非常相似。在AUCPC和MCC上，DELPHI仍然比第二好的程序高出18.5%和20.9%

2、DSet_186、DSet_164和DSet_72的性能比较

为了进一步将DELPHI与其他程序进行比较，我们使用了另外三个以前发布的数据集：Dset_186、Dset_164和Dset_72。基于可用性和可用性，我们在它们上运行了SPPIDER、PSIVER、CRFPPI、Scriber、DELPred和Delphi。请注意，SSWRF、CRFPPI和PSIVER使用DSET_186作为其训练数据集，因此这三个程序在DSET_186上被排除在外。如表5所示，一般而言，性能排名与DSET_448和DSET_355中的排名非常相似
Delphi在所有数据集的所有指标上都明显优于竞争对手，尽管它与测试数据集的相似性最少。与每个数据集上的次优程序相比，AUPRC分别提高了10.0%、0.6%、10.2%。在每个数据集上，MCC的性能分别提高了18.7%、8.9%、27.7%。

（四）、消融研究

1、功能评估

进行了一项实验，以证明所有12个特征都是有用的。我们每次修剪一个特征，剩下的11个特征用于训练和评估DELPHI模型。如图3所示，性能随着任何特征的移除而降低，表明没有冗余特征。移除PSSM可能会造成最大的性能下降，但我们新引入的特性hsp、protv ec1d和位置也显示出非常有用。

2、对模型体系结构和新颖特性的评价

为了证明集成结构和这三个新特性提高了性能，我们在DSET_448上分别评估了CNN、RNN和集成模型在有和没有这三个新特性的情况下的性能，总共进行了六次测试。培训如前所述(第2.3.3节)。在图4中，我们绘制了六个测试的AUPRC和MCC的值。显然，整体模型的表现优于单独的CNN和RNN模型。此外，这三个新功能带来的改进甚至更高，最弱的模型CNN在12个功能上的表现超过了该合唱团的9个功能。

3、其他探索

探索了其他一些可能很有趣的想法，比如用一次热嵌入来表示蛋白质序列，或者最初的100维ProTV EC。不幸的是，结果没有超过现有的序列表示法。欠采样的非结合残差和过采样的结合残差会导致性能不稳定，这与测试数据集的比例有关。例如，采样方法改善了对最高结合残基比率Dset_164的预测，但对其他数据集的预测没有改善。注意机制也未能改善实验结果。在网络结构方面，对LSTM、一维卷积、不单独训练CNN网络和RNN网络进行了实验。最后，我们根据经验选择了所报道的架构。

（五）、进化守恒

对于每种蛋白质，BLASTP被用来搜索同源物。搜索仅限于refseq_Protein数据库，以确保高质量和来自哺乳动物生物体的蛋白质。SH2D2A序列进一步被限制为X1亚型，而血红蛋白序列被限制为标记为α亚基的蛋白质。将序列与肌肉进行比对(Edgar，2004)，任何具有异常长蛋白质距离的序列都被手工进一步剔除
这导致了66个同源SH2D2A序列，178个同源α亚基血红蛋白序列和40个同源SRY序列。对于这些蛋白质的比对中的每个位点，记录了最保守的氨基酸的频率，并将其与Delphi在图5中预测的PPI结合位点进行了比较。这些数字中存在差距，因为在这种比较中只包括了在10多个分类群中存在的比对位点
一般来说，图5.a和图5.c显示，Delphi预测蛋白质-蛋白质相互作用的可能性很高的位置也是序列高度保守的位置。正如预期的那样，这种相关性并不完美，因为除了PPI之外，序列保守可能有很多原因。还需要注意的是，图5.a中阿尔法血红蛋白的整体保守程度比其他两种蛋白质保守得多，这表明这些蛋白质进化较慢。尽管如此，PPI在130aa、185aa和240aa附近的概率很高，但在175aa附近的概率较低。同样，图5.c中350aa和500aa左右的位点(蛋白SH2D2A)的PPI较低，但保守水平较高
在这里插入图片描述
图5 对三种蛋白质进行评估，以比较DELPHI预测的PPI结合位点(橙色)和逐个位点的保守程度(蓝色)。只有代表10个或更多分类群的地点才被包括在内，导致了一些明显的空白。这些蛋白质是(A)α-血红蛋白，(B)SRY和©SH2D2A。
在这里插入图片描述

图6 DELPHI更好地拟合了这条曲线，但可能在低端，每个结构域的PBR残基很少

（六）、PBR预测的准确性

在Zhang和Kurgan(2019年)的基础上，我们比较了Scriber和Delphi在DSet_448上预测的蛋白结合残基(PBR)。从Zhang和Kurgan(2019年)对蛋白质的Pfam(ElGebali等人，2019年)注释中收集了600个具有原生PBR的域名。图6显示了这些域中的PBR数量，并将它们与Scriber和Delphi预测的数量进行了比较。很明显，Delphi更接近原生数据，尤其是在每个域有更多的PBR，但当每个域的PBR很少时，Delphi可能高估了具有PBR的域的百分比。

四、总结

提出了一个新的深度学习模型和程序Delphi，用于预测PPI结合位点。我们在5个数据集上将Delphi与当前最先进的9个程序进行了比较，结果表明Delphi具有更高的预测性能。在这个问题上还有很大的改进空间，因为在所有测试中最高的AUROC是0.746
希望在未来，模型结构、三个新特征的使用以及多对一结构可以扩展到预测蛋白质与其他类型的分子，如DNA、RNA和配体的结合。其他深度学习技术可以更好地用于这个主题，包括更好的预训练嵌入或更好的生物信息学中不平衡问题的采样方法。
对我们的深度学习模型从数据中学到的东西的解释仍然是一个有趣和具有挑战性的开放问题。我们尝试了几个类似于DeepMind的想法(Alipanahi等人，2015年)，然而，没有找到有意义的主题。也许德尔福学到的东西要复杂得多。

wangpan007

关注

5
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
论文笔记：DELPHI:预测蛋白质相互作用位点的精确深度集成模型

文章目录摘要：一、介绍二、材料和方法（一）、数据库（二）、测试集（三）、训练集和验证集（四）、输入特征（五）、模型架构（六）、CNN模型架构Web服务器：www.csd.uwo.ca/~yli922/index.php特征计算流水线:github.com/lucian-ilie/DELPHI联系邮箱： ilie@uwo.ca补充资料：摘要：动机：蛋白质通常通过与其他蛋白质相互作用来发挥功能，这就是为什么准确预测蛋白质-蛋白质相互作用(PPI)结合位点是一个基本问题。实验方法既缓慢又昂贵。因此，人
复制链接

扫一扫