【大模型多肽发现、学习笔记】针对病毒感染的肽药物发现

文献链接:Deep-AVPpred: Artificial Intelligence Driven Discovery of Peptide Drugs for Viral Infections | IEEE Journals & Magazine | IEEE Xplore

doi:10.1109/JBHI.2021.3130825

摘要

人畜共患病病毒一直是人类面临的难以解决的问题,COVID-19流行病就是一个例子。而已知的抗病毒药有效力低、副作用强等很多缺点,所以人们开始关注于自然物质的抗病毒能力。动植物可以产生AVPs(antiviral peptides)来阻止病毒入侵本体,但获取这些AVP来合成肽药物又贵又花时间。因此,本文提出一种计算方法来识别新的AVP,方法名为Deep-AVPpred,其使用转移学习(transfer learning)理念结合深度学习算法来从蛋白质序列中发现AVPs。同时,基于这一方法,我们推出了网页工具Deep-AVPpred,其可以用于帮助抗病毒药物工作预测新AVPs。


数据集

在本文工作中,我们从AVPpred、DBAASP、DRAMP、SATPDB、StarPep中收集10203种AVPs,再从AVPpred、Swiss-Prot中收集8792种non-AVPs。经过一系列标准筛选后,最终所使用数据集为4090种non-AVPs和4090种AVPs.


模型框架

Deep-AVPpred模型结构如下图所示,

  • 数据预处理。基于transfer learning理念使用了前人的工作得到的pretrained embeddings,其使用长1280的向量来编码肽序列的每一个氨基酸。
  • 输入层,使用前一步处理后的数据,肽序列长度限定为∈ [5,50],同时用0向量补齐空缺。
  • 4层并联的1-D卷积层。卷积核大小依次为4、5、6、7,各filters大小都为200,以及激活函数为ReLU。
  • 相应的4层1-D Global Max池化层。进行下采样任务,然后将4层输出concatenate(堆叠)起来。
  • Independent Component Layer。用的前人的工作,可以更稳定学习、更快收敛速度、更好泛化能力。
  • 4层串联密集层(全连接层)。依次含有64、32、8、1个神经元,前三层使用ReLU为激活函数,最后一层使用Sigmoid做激活函数,输出值∈ [0,1]。
  • 权重更新,使用的Adam(Adaptive Moment Estimation)优化策略。


实验

分类评估指标方面,本文使用的是经典的Accuracy、Sensitivity、Precision、F1-Score、Specificity、area under ROC curve(AUROC)。同时,与目前的SOTA算法进行对比,算法有AVPcompo、iAMPpred、Meta-iAVP、AVPIden、ENNAVIA-B。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值