Predicting Protein−Protein Interactions Using Symmetric LogisticMatrix Factorization文章梳理

作者:Pei Fen et.al

期刊:Journal of chemical information and modeling

时间:2021

代码:https://github.com/Fengithub/symLMF-PPI

补充文件:https://pubs.acs.org/doi/10.1021/acs.jcim.1c00173

1 数据集

使用8种数据集,具体为两个基准数据集,两个扩展数据集,两个组织特异性数据集和两个疾病特异性数据集

注:

构建阳性数据集去除同源性大于等于40%,长度小于50的的序列

构建阴性数据集:阴性样本不能出现在阳性样本;阴性样本的数量等于阳性样本;阴性样本的2个蛋白质不共享亚细胞定位。(最后一条倾向于找理化环境不一样的蛋白质,以免相似理化性质的蛋白质发生相互作用)

(亚细胞定位:不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的生物信息学预测。)

2 文章的创新点 Symmetric Logistic Matrix

由于网上资料过少,可以从LM理解,推荐系统入门(三):矩阵分解MF&因子分解机FM(附代码) - 知乎

这个就挺明白,以此扩展到特殊SLM

3.模型

3.1模型

 论文里对模型没有过多介绍,但是个人理解如下:

首先根据打好标签的数据集构建PPI network,并据此生成左下方的矩阵,具有相互作用的是深颜色的框架。

然后,经过对称矩阵分解得到隐藏的蛋白质相互作用,也就是在右下角的蛋白质相互作用矩阵,猜测颜色深浅不一是说相互作用的概率大小。通过此矩阵得到右上角的额蛋白质相互作用网络。

3.2 损失函数

本文通过对损失函数的调参训练模型

 

 损失函数猜测:L依然是真实值-预测值,(2)得到的是真实值,(3)是预测值,(4)通过取log变成相减的样子。所以本文参数,c,r, λ。

4 实验

实验一:与其他算法的比较

2个数据集比较的算法不一样,分别是下图基准数据集。

 实验二:扩展数据集的比较

实验三:对计算成本的比较

实验四:在组织、疾病特定数据集的比较

实验五:参数的比较

实验六:模型在有限数据集下预测隐藏蛋白质的相互作用

 每个数据集隐藏50%的相互作用对,使用symLMF将得到的交互矩阵用于预测隐藏的交互作用。预测的交互是根据可信度评分排序的,并且检查前1000个预测的每一个,以评估它是TP(一个隐藏的已知交互)还是FP(或者在原始数据集中不存在的交互)。注意,该方法为提供了一个精度的下界(TP/(TP + FP)),因为只有在我们的源数据集中注释了预测,这些预测才会被标记为TP,尽管它们可能是正确的,但还没有在数据集中通过实验观察到或注释。实验用不同的随机选择的隐藏部分重复5次,在每次模拟中,模型用不同的随机初始化训练10次,结果每个数据集总共运行50次。

(A)中的曲线显示了捕获的TPs数量作为预测(排序)交互作用大小的函数。面板(B)列出了与随机预测相比,每个数据集的TPs和随机比例。注意到,在对h的1000个预测中,捕捉到了327个隐藏的交互作用。第二个数据集精度为0.327,在代谢紊乱的情况下是最低的(0.235)。与随机预测因子相比,symLMF在第二个数据集提高了818倍。组织/疾病特异性预测的性能较低。然而,TPs或回忆率是随机的38倍(神经退行性疾病)和51倍(代谢紊乱)。

 实验七: PPI的新预测

将本模型与SPRINT比较,结果是两者侧重的数据集不用,但是在扩展数据集的比较本模型要胜于SPRINT.,symLMF准确预测的PPIs与SPRINT做出的PPIs几乎没有重叠,这表明通过结合互补的方法开发一个元分类器的潜在效用.

(后续补充SPRINT的相关内容)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值