作者:张子丁教授团队
会议:The 13th International Conference on Agents and Artificial Intelligence (ICAART 2021)
时间:2021
0 写在前面的不明白
1)作者介绍数据库时,有To obtain high-quality PPIs, we removed interactions from large-scale mass spectroscopy experiments that were detected only once, non-physical interactions and interactions between proteins without available PSSM features. Sampling negative interactions, we applied our ‘Dissimilarity-Based Negative Sampling’ method as outlined in our previous work (Yang et al., 2020). Briefly, we sampled a negative training set of PPIs (i.e. pairs of proteins that do not interact) by considering interactions in the positive training set. Given that we found a protein B with a sequence that was similar to interacting protein A, we considered B and C non-interacting. In particular, we sampled a negative PPI set that was 10 times larger than the positive PPI training set.介绍
最后的B和其序列相互作用蛋白质类似的A,说B和C不会发生相互作用,是说数据集里不存在相互作用的蛋白质嘛?
1 动机
用源人类病毒域的PPIs训练我们的系统,并预测在目标人类病毒域的相互作用。从大规模人类病毒PPI数据集中学到的先验知识的转移,使人类与研究较少的病毒(如登革热、寨卡和SARS-CoV-2)蛋白之间的PPI得以可靠预测。
2 贡献
提出了一个预测病毒和人类蛋白质之间相互作用的框架,并迁移学习到人类研究较少的病毒。
3 模型与算法
3.1 数据集
HPIDB、VirHostNet、VirusMentha、PHISTO和PDB在内的5个公共数据库中收集了经实验验证的人-病毒PPI数据,捕获了HIV中的9880个相互作用,疱疹中的5966个,乳头状瘤中的5099个,流感中的3044个,肝炎中的1,300个,登革热中的927个和寨卡中的709个。对于SARS-CoV-2蛋白的相互作用,我们使用了两个最近发表的相互作用集(Gordon et al., 2020;Liang et al., 2020),分别捕获了291和598个PPIs。为了获得高质量的PPIs,从大规模的质谱实验中去除了只检测一次的相互作用,非物理相互作用和蛋白质之间的相互作用,没有可用的PSSM特征
3.2 模型
本文引入了一个端到端的框架,称为Siamese-based CNN,由三部分组成(图1):
1)预先获取的蛋白质序列概况模块
2)一个Siamese-CNN模块
3)一个预测模块
图1 预测病毒和人类宿主蛋白之间相互作用的整体深度学习架构。
1)预先获取的蛋白质序列概况模块
生成的序列长度均为L。此处L=2000,才去的方法是,蛋白质序列过长截断,过短补0。
在UniRef50蛋白质数据库中,使用PSI-BLAST获得(方法之前有介绍),其中E-value<0.001,得到L*20的矩阵,文章可能用了转置。
2)一个Siamese-CNN模块
为了捕捉两个蛋白质之间的复杂关系,我们使用了一个具有两个相同的CNN子网络的Siamese-CNN架构,对于给定的一对蛋白质谱S, A,它们共享相同的参数。每个子网络产生一个序列嵌入一个单一的蛋白质图谱,然后连接。每个单独的CNN模块由卷积和池化层组成,利用四个连接的卷积模块来捕获输入序列配置文件中的模式。也就是卷积和池化用了4次。
n是长度,s是特征
X:n*s 通过卷积(卷积核fn=20,64,128,256)和滑动窗口(w)变为
C:(n-w+1)*fn(3最大池化+1全局池化)池化窗口大小2
P:(n-p+1)*fn //此处我觉得应该是(n-w-p+2)*fn
补充:Siamese:siamese(孪生) 网络_梦Dancing的博客-CSDN博客
3)预测模块
该预测模块将一对蛋白质序列嵌入向量连接到序列对向量中,作为MLP中完全连接层的输入,并计算两个蛋白质相互作用的概率。该MLP包含3个具有泄漏ReLU的密集层(1024,521,256),其中交叉熵损失针对定义为的二值分类目标进行优化。
感知机:人工智能之多层感知器MLP
4)加入了两种迁移学习
为了进一步提高深度神经网络的性能,特别是在处理较小的数据集,提出了两种迁移学习方法,保持权重不变(即冻结)或允许它们在早期层进行微调,并将它们应用于8个人类病毒PPI集。
(i)使用所提出的DNN体系结构,基于给定的人-病毒相互作用源集训练模型,以获得预先训练的权重,在CNN层中学习蛋白质序列的表示。
(ii)在随后的迁移学习步骤中,我们保持这些CNN层的权重不变(即冻结),只重新训练MLP的全连接层的参数,以预测目标人类病毒相互作用集中的相互作用。作为一种替代方法,我们的微调方法允许重新训练从初始训练步骤获得的CNN层的权重,并通过学习人-病毒交互的目标集中的交互来改变这些权重。与“冻结”方法类似,我们还重新训练了MLP的全连接层的参数。
5)三种常用的基于序列的编码方案,包括局部描述符(LD)、联合Triad (CT)和自动协方差(AC)
4 结果比较
加入了与随机森林的比较
实验一:将深度学习方法应用于一组不同的人-病毒蛋白相互作用数据集,观察到深度学习方法普遍具有较高的预测性能(表1)。然而,也发现小型训练数据集,如登格、寨卡病毒和SARS-CoV-2导致预测性能下降。
实验二:比较提出的深度学习方法(即PSSM+CNN+MLP)的性能,使用三种广泛使用的基于序列的特征编码方案(即LD、CT和AC)在人类病毒PPI数据集上使用5倍交叉验证训练了一个RF模型。通过比较相应的AUPRC值,观察到方法通常优于其他基于射频的分类器,特别是在应用于相对较大的数据集时(表2)。
(个人感觉只一个实验做的不够客观,因为变量没有相同的,并不知道结果是受编码影响还是RF影响)
实验三:比较了深度学习体系结构使用PSSMs和不同的单词嵌入技术word2vec+CT one-hot的性能,表3表明,结合PSSM的学习方法具有更好的预测性能,特别是在相对较小的数据集,如登革热、寨卡和SARS-CoV-2。
实验四:为了进一步评估提出的方法的性能,我们将我们的方法与现有的三种人类病毒PPI预测方法进行了比较。
实验五:跨病毒测试和迁移学习
首先作者用了本模型在不同的数据集上训练模型,又在不同的测试集上测试模型,得到的AUPRC进行比较。
即在一个人病毒PPI数据集上训练了深度学习模型,并预测了不同人病毒系统中的蛋白质相互作用。意料之中的是,与在相同的人-病毒系统中进行训练和测试相比,这种交叉病毒测试的表现明显下降(图2)。
第一眼没看明白,又仔细想了一会,表格的解释应该是,用HIV,Herpes,Papilloma等数据集分别训练模型,得到的模型使用HIV,Herpes,Papilloma等测试训练的模型,以此得到AUPRC,然后发现有一些数值不是很好,就进行了迁移学习的两种方法,得到如下两个结果,如图3.
图3
5 结论
提出了新的框架,经过比较可以在给定源人-病毒相互作用数据集上训练时,在预测目标人-病毒域蛋白质的相互作用方面表现不佳,我们引入了两种迁移学习方法(即冻结型和微调型)。值得注意的是,与原始基线模型相比,我们的方法显著提高了跨病毒预测性能。特别是对于较小的目标数据集,对从较大的源数据集获得的预训练参数进行微调可以提高预测性能。
6 最后
文中的那三种编码方法会继续更新,本论文的代码没有找到,如果有看的欢迎提供链接……