doi:10.1109/JBHI.2021.3130825
摘要
人畜共患病病毒一直是人类面临的难以解决的问题,COVID-19流行病就是一个例子。而已知的抗病毒药有效力低、副作用强等很多缺点,所以人们开始关注于自然物质的抗病毒能力。动植物可以产生AVPs(antiviral peptides)来阻止病毒入侵本体,但获取这些AVP来合成肽药物又贵又花时间。因此,本文提出一种计算方法来识别新的AVP,方法名为Deep-AVPpred,其使用转移学习(transfer learning)理念结合深度学习算法来从蛋白质序列中发现AVPs。同时,基于这一方法,我们推出了网页工具Deep-AVPpred,其可以用于帮助抗病毒药物工作预测新AVPs。
数据集
在本文工作中,我们从AVPpred、DBAASP、DRAMP、SATPDB、StarPep中收集10203种AVPs,再从AVPpred、Swiss-Prot中收集8792种non-AVPs。经过一系列标准筛选后,最终所使用数据集为4090种non-AVPs和4090种AVPs.
模型框架
Deep-AVPpred模型结构如下图所示,
- 数据预处理。基于transfer learning理念使用了前人的工作得到的pretrained embeddings,其使用长1280的向量来编码肽序列的每一个氨基酸。
- 输入层,使用前一步处理后的数据,肽序列长度限定为∈ [5,50],同时用0向量补齐空缺。
- 4层并联的1-D卷积层。卷积核大小依次为4、5、6、7,各filters大小都为200,以及激活函数为ReLU。
- 相应的4层1-D Global Max池化层。进行下采样任务,然后将4层输出concatenate(堆叠)起来。
- Independent Component Layer。用的前人的工作,可以更稳定学习、更快收敛速度、更好泛化能力。
- 4层串联密集层(全连接层)。依次含有64、32、8、1个神经元,前三层使用ReLU为激活函数,最后一层使用Sigmoid做激活函数,输出值∈ [0,1]。
- 权重更新,使用的Adam(Adaptive Moment Estimation)优化策略。
实验
分类评估指标方面,本文使用的是经典的Accuracy、Sensitivity、Precision、F1-Score、Specificity、area under ROC curve(AUROC)。同时,与目前的SOTA算法进行对比,算法有AVPcompo、iAMPpred、Meta-iAVP、AVPIden、ENNAVIA-B。