论文笔记:Protein-protein interaction site prediction through combining local and global features

一、论文基本情况

  • 发表期刊:Bioinformatics(最新的IF=5.61)
  • 作者及单位:中南大学李敏团队
  • 服务器地址:http://bioinformatics.csu.edu.cn/PPISP/
  • 代码及数据地址:https://github.com/CSUBioGroup/DeepPPISP
  • 补充材料来源

二、前言

蛋白质-蛋白质相互作用(PPI)在信号转导、运输和新陈代谢起着非常关键的作用,作者引出了一种局部上下文特征和全局序列特征相结合的蛋白质作用位点预测的方法(DeepPPISP)。采用滑动窗口来捕捉目标氨基酸的邻居特征,采用卷积神经网络从整个蛋白质序列中提取特征。

三、数据

(一)训练集和测试集

将三个基准的数据集:Dset_186、Dset_164、 Dset_72这三个基准数据集进行混合,一共就有422条蛋白质序列,但是有两条蛋白质序列没有蛋白质的二级结构的定义(DSSP)文件然,所以删除了两条蛋白质序列,剩下420条蛋白质序列,然后后取83.3%蛋白质序列作为训练集(73188)、16.7%作为测试集(11719),总共的残差数量为84979,即350个蛋白质序列作为训练集( 其中50个用来进行独立验证),70个蛋白质作为测试集。.这三个基准数据集包括了作用位点和非作用位点(具体参数见表一),如果一个氨基酸的绝对溶剂可及性( absolute solvent accessibility)小于1 A^2,则该氨基酸被定义为相互作用位点,否则定义为非作用位点。

表一:三个数据集残差作用|非作用的数量
数据集Dset_72Dset_164Dset_186总数量
作用位点残差数量19236096551713536
非作用位点残差数量16217275853070274504
各数据集总数量18140336813621988040

在这里插入图片描述

图一:三个数据集蛋白质序列的长度范围/center>

(二)特征

1、位置特异性矩阵(PSSM)
PSSM是通过运行PSI-BLAST算法在NCBI的非冗余(NR)序列数据库中搜索生成的,有三个迭代,e值阈值为0.001。每个氨基酸被编码为一个含有20个元素的载体。PSSM或特定于位置的评分矩阵是蛋白质BLAST搜索中使用的一种评分矩阵,其中蛋白质多序列比对中每个位置的氨基酸取代分数分别给出。因此,比对中位置A处的Tyr-Trp取代与位置B中相同的取代可能获得非常不同的分数,PSSM分数通常显示为正整数或负整数。正值表示给定的氨基酸替换比对发生的频率比偶然预期的要高,而负值表示替换发生的频率低于预期的发生率。通过输入蛋白质序列的FASTA文件查看PSSM

Dset_72的一个PSSM[-2, -3, -3, -3, -4, -3, -2, -4, -4, -4, -4, -2, -4, -5, 8, -2, -2, -5, -4, -4]

2、二级构造( Secondary structure)
蛋白质的二级结构是指肽链主链的空间走向(折叠和盘绕方式),是有规则重复的构象。最常见的二级结构单元就是α-螺旋和β-折叠,它们的各种组合决定了蛋白质的主体结构。使用一个9维单向矢量对它们进行编码,也就是说,只有一个元素为1,其他元素为0。前8个维度表示每个氨基酸的状态,最后一个维度不表示二级结构状态的信息。

Dset_72的第一个序列的前三个残基[1, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0]

在这里插入图片描述

图二、二级构造

3、原始蛋白质序列
原始蛋白质序列可以准确地代表每个氨基酸及其位置。大多数蛋白质由20种不同的氨基酸组成。因此,我们使用一个20维one-hot载体来编码蛋白质中的氨基酸类型。

[12, 15, 17, 4, 9, 4, 12, 12, 8, 12, 8, 2, 16, 9, 10, 7, 15, 14, 16, 12, 3, 17, 16, 1, 17, 17, 17, 2, 17, 15, 6, 3, 2, 12, 13, 17, 8, 4, 11, 18, 19, 17, 2, 5, 17, 13, 17, 6, 11, 0, 8, 16, 8, 12, 14, 3, 13, 13, 19, 11, 15, 16, 19, 14, 17, 17, 15, 17, 9, 16, 17, 9, 6, 13, 11, 18, 9, 2, 5, 8, 3, 19, 8, 1, 8, 17, 15, 11, 8, 0, 9, 12, 0, 12, 7, 3, 8, 16, 7, 15, 8, 0, 8, 5, 13, 12, 14, 3, 12, 13, 17, 19, 16, 9, 12, 12, 15, 14, 3, 3, 10, 16, 8, 11, 13, 17, 15, 9, 16, 1, 9, 17, 8, 5, 4, 19, 12, 15, 2, 7, 0, 17, 3, 18, 3, 15, 11, 5, 13, 12, 3, 11, 11, 19, 8, 16, 16, 12, 12, 17, 9, 2, 15, 2, 5, 15, 4, 4, 9, 19, 15, 8, 9, 16, 17, 2, 8, 15, 14, 18, 13, 13, 5, 11, 17, 4, 15, 1, 15, 17, 10, 6, 3, 0, 9, 6, 11, 6, 19, 16, 13, 8, 15, 9, 15, 9, 15]

四、方法

(一)局部特征

采用滑动窗口的方法提取氨基酸的邻居特征。滑动窗口大小为(2n+1)表示我们考虑位于中心的目标氨基酸和2n个相邻的氨基酸作为目标氨基酸的输入特征。例如滑动窗口大小为7,对于每个第i位的氨基酸,将第i-3、i-2、i-1、i、i+1、i+2、i+3位氨基酸的特征视为其局部上下文特征。对于在左或右窗口没有氨基酸邻居的氨基酸,我们使用与特征向量相同长度的全零向量作为其缺失的特征
在这里插入图片描述

图三、局部特征的滑动窗口模式

(二)全局特征

采用深度学习技术从蛋白质序列中学习,每个氨基酸由一个49维特征向量表示(20维为PSSM, 9维为二级结构(dssp),20维为原蛋白序列),所有蛋白质序列的长度都归一化到500。如果一个蛋白质的序列长于500,然后我们截断它;如果小于500,则用0填充。二级结构向量和原始蛋白质向量是稀疏one-hot向量(sparse one-hot vectors),PSSM向量是一个稠密向量。为了避免不同类型的输入特征不一致,受自然语言处理中的词嵌入技术的启发,采用嵌入层将原始蛋白质序列向量的稀疏变换为密集向量,嵌入层之后,将嵌入的原始蛋白质序列载体与PSSM载体和二级结构载体连接作为预处理载体。然后,使用带有最大池化层的文本卷积神经网络提取预处理向量的全局特征。这一层的输出载体连接在一起作为输入蛋白质序列的全局特征。
分类部分包括两个完全连接的层和一个输出层。在分类部分,有两个完全连接的层,以连接的向量作为输入。从第二层完全连接的输出被输入到输出层以一个sigmoid激活函数,执行二元分类,以确定输入的氨基酸是否是一个相互作用位点。

[0, 0, 1, ..., 0, 0, 0]#dset72_sequence_data原始蛋白质稀疏one-hot向量
[1, 0, 0, ..., 0, 0, 0]#dset72_sequence_data的dssp稀疏one-hot向量
[ -3,   2,  -3, ...,  -6,  -5,  -5]#dset72_sequence_data的pssm稀疏one-hot向量

在这里插入图片描述

图四、输入的数据包括两种类型的数据:子序列和全蛋白序列。对于子序列,滑动窗口大小为7应用于提取目标氨基酸的邻居特征。然后将这三种特征组合成一个局部特征向量,对于整个蛋白质序列,长度(L)设置为500。首先,通过原始序列特征嵌入,将三种类型的特征连接到预处理过的向量上,然后将其输入到不同核(13,15,17)的文本cnn中,得到全局序列特征向量。将局部特征向量和全局特征向量进行连接,然后将连接后的特征向量输入到两个完全连接的层中进行预测。

(三)文本卷积神经网络(TextCNN)

传统的cnn通常用于提取二维图像数据的特征。TextCNN其中心思想是,文本可以被视为一维图像。一维cnn可以用来捕捉相邻词之间的关系。将整个蛋白质序列作为文本处理。假设一个蛋白质序列由n个氨基酸组成,每个氨基酸用一个m维向量表示。那么可以将蛋白质序列视为一幅图像,宽度为n,高度为1,通道为m。为了捕获不同长度的子序列的特征,使用多个不同尺度的卷积核。我们可以使用不同尺度的卷积核来获得不同数量相邻氨基酸之间的关系(Zeng, et al., 2019)。最大池化层用于捕获每个通道的最重要特征,并降低输出向量的维数。然后将最大池化层的输出向量连接在一起,形成一个包含整个蛋白质序列全局特征的连接向量
在这里插入图片描述

图五、TextCNN的补充理解

五、模型的应用域(AD)

化学空间中围绕模型描述符和模拟响应的理论区域。在QSAR模型的构建中,分子的AD在估计预测某一特定化合物的不确定性方面起着决定性的作用,这种预测基于该化合物与用于构建模型的化合物的相似程度。因此,仅当所预测的化合物在模型的AD范围内时,使用QSAR对建模响应的预测才适用。三种物理化学性质或拓扑性质用于定义适用性域,即假定的相对溶剂可及性(RSA)分数、极性和蛋白质序列长度,如果某一特定的物理化学性质或拓扑性质在训练集的5% ~ 95%范围内,则视为在域中,在0% ~ 5%或95% ~ 100%范围内,视为警告域;如果大于最大值或小于最小值,则视为外域。
在这里插入图片描述

图六、作用域的理解 # 六、结果 # (一)、与其他方法比较 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210103172044481.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dhbmdwYW4wMDc=,size_16,color_FFFFFF,t_70#pic_center)
图七、与其他方法比较的相关参数

在这里插入图片描述

图八、AUPRC的比较

(二)、全局特征的重要性

在这里插入图片描述

图九、ROC曲线

在这里插入图片描述

图十、DeepPPISP(去除全局特征)的ROC曲线,在局部上下文特征中加入个体特征。仅使用PSSM的ROC曲线下面积最大,达到0.610。

在这里插入图片描述

图十一、相关参数比较

(三)预测准确的情况

在这里插入图片描述

图十二、预测准确度分析在P00268蛋白质序列中

在这里插入图片描述

图十三、在P31243通过DeepPPISP和其他竞争方法

(四)不同长度蛋白质的影响

数据集中的蛋白质长度从39-869,有62.1%的蛋白质长度小于200个氨基酸,将蛋白质分为短长度蛋白质(小于200个氨基酸残基)和长长度蛋白质(大于200个氨基酸残基),实验结果如下图:

在这里插入图片描述

图十四、长于200或短于200的蛋白的预测性能

七、总结

(1)、改进算法提高各个性能
(2)、加入另外两个基准数据集
(3)、增加基准数据集的特征

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
这个错误信息是由于在执行命令`npm run serve`时出现的。错误代码`ELIFECYCLE`表示在执行脚本时发生了错误。错误号为`1`表示执行命令失败。 常见的原因是代码中存在错误,导致脚本无法正常执行。你可以尝试以下解决方法: 1. 检查代码中是否存在语法错误或逻辑错误。确保代码正确无误。 2. 检查项目的依赖项是否正确安装。可以使用命令`npm install`来安装项目所需的依赖项。 3. 尝试将项目回滚到之前的版本,并重新执行命令。可以使用版本控制工具(如Git)来回滚项目。 4. 如果以上方法无效,可以尝试删除`node_modules`文件夹,并重新执行`npm install`命令来重新安装依赖项。 如果问题仍然存在,建议咨询你的导师或更高级的开发人员寻求帮助。他们可能会提供更具体的解决方案。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [【问题解决】npm ERR! code ELIFECYCLE npm ERR!... [email protected] serve: `vue-cli-service serv](https://blog.csdn.net/someday____/article/details/127667270)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [ code ELIFECYCLE npm ERR! errno 1 npm ERR! [email protected] dev: `vite` npm ERR! Exit statu](https://blog.csdn.net/qq_61402485/article/details/129014222)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值