摘要
由于耐药性细菌的不断出现危害到了人类健康,现在急需一种能替代传统抗生素的药物(比如AMPs)。本文作者推出了一种基于深度学习的模型,AMPlify,其在预测AMP任务中表现突出,而且优于现有的SOTA 算法。在本文的工作中,作者训练了两个模型,一种是基于平衡数据集的,而另一种是基于非平衡数据集的。结果得出两个模型可以服务于不同的场景,且都可以促进新AMP发现的研究。
数据集
本文中使用的所有AMPs都来自两个数据集,即Antimicrobial Peptide Database(APD3,http://aps.unmc.edu/AP)和Database of Anuran Defense Peptides(DADP,DADP)。此外,本文使用的non-AMP的序列数据取样于UniPritKB/Swiss-Prot(UniProt)。数据集处理如下图。
模型
本文作者构建了两个模型,且都由5个子模型基于各自的子数据集训练,最后集合成最终模型。两个模型都是基于基础的AMPlify模型,其结构如下图所示。首先,使用Bi-LSTM网络对输入序列以循环的方式编码其位置信息。然后,multi-head scaled dot-product attention(MHSDPA)层使用多种权重向量计算出一个改进后的序列表征。最后,context attention层使用权重平均来生成一个单总结向量(single summary vector),其学习了前面层的上下文信息。
不足之处
由于AMP研究领域的相关AMP序列信息相比其他Deep Learning研究领域来说较少,所以本文的预测模型还有一定提升空间。其次,本文收集的non-AMP数据存在一定瑕疵,因为虽然工作中是按关键词在Swiss-Prot数据库中进行筛选,但仍有一小部分non-AMP数据是具有Antimicrobial特性的,所以作者提出可以在训练模型任务中加入噪声进一步优化模型。